Загрузка блога...
Блог
Новые модели, анонсы новых функций, успешные кейсы и аналитика от команды ZvenoAI

В мире больших языковых моделей (LLM) конкуренция не утихает ни на минуту. Anthropic, компания, стоящая за семейством моделей Claude, на этой неделе выпустила Claude Opus 4.5 — обновление, которое позиционируется как шаг вперед в области сложного мышления, кодирования и агентских задач. Эта модель не просто эволюция предыдущих версий, таких как Opus 4.1, но и прямой вызов конкурентам вроде GPT-5 от OpenAI и Gemini 3 Pro от Google. В этой статье мы разберем ключевые аспекты новинки, опираясь на свежие данные из бенчмарков.
Claude Opus 4.5 — это топовая модель в линейке Anthropic, ориентированная на сложные, многошаговые задачи. По сравнению с предшественниками, она стала взрослее: меньше импровизации и хаоса, больше фокуса на эффективном решении проблем с первого раза. Модель улучшила способности в нескольких ключевых направлениях:
Opus 4.5 лучше справляется с многоуровневыми задачами, где требуется анализ больших объемов данных, логические цепочки и креативные решения. Например, она может обрабатывать сложные enterprise-задачи, такие как анализ бизнес-процессов или симуляция сценариев.
Anthropic заявляет, что это лучшая модель в мире для программирования. Она способна работать с кодом часами — один из тестов показал, что Opus 4.5 может рефакторить код в течение 7 часов без потери качества. Поддержка инструментов (tool use) и улучшение агентского поведения позволяет модели взаимодействовать с внешними API, симулировать действия на компьютере и автоматизировать сложные пайплайны.
Улучшения в "computer use" делают модель идеальной для задач, где ИИ должен имитировать человеческие действия — от навигации по интерфейсам до автоматизации рутинных операций. Это открывает двери для создания автономных агентов, способных выполнять долгосрочные задачи.
Интересно, что модель стала в 3 раза дешевле предыдущих версий Claude, что делает ее доступнее для разработчиков и бизнеса. Однако первые тесты от пользователей показывают, что модель склонна к фиолетовым градиенты и активному использованию эмодзи.
Anthropic не скупится на цифры: модель протестирована на стандартных тестах, таких как SWE-bench (для кодирования), VPCT (визуальное программирование) и внутренних enterprise-бенчмарках. Вот ключевые результаты:
SWE-bench Verified: Opus 4.5 лидирует с отрывом в несколько процентных пунктов от конкурентов. Это тест на реальное кодирование с двухчасовым лимитом, где модель обходит даже лучших человеческих разработчиков в некоторых сценариях.
Agentic tasks и multi-step reasoning: На бенчмарках Anthropic модель показывает лучшие результаты в своем классе, опережая GPT-5.1 (88.1%) и Gemini 3 Pro (91.9%) в сложных задачах — Opus 4.5 набирает 87.0%.
Novel problem solving: В тестах на новые проблемы модель взламывает бенчмарки, эксплуатируя лазейки — например, в одном случае она нашла слишком умный обход, что привело к пересмотру теста.

Мы уже попробовали новую модель и готовы поделиться нашим опытом:
Opus 4.5 идеальна для долгосрочного рефакторинга кода. Над одной нашей задачей модель работала 5 часов, проводя переезд с одного фреймворка на другой, следуя документации и заранее разработанному архитектурному плану. Идеально подойдет для стартапов, где нужно быстро прототипировать.
Модель замечательно себя проявляет как помощник в креативных задачах или психологической поддержке. Эта особенность может пригодиться в приложениях EdTech, а также для мозгового штурма новых идей.
В бизнес анализе подсказывает хорошие идеи в управлении рисками, симуляциях различных сценариев и помощи в принятии решений, основываясь на неструктурированных данных.
Хорошие новости: Claude Opus 4.5 уже поддерживается нашим сервисом! QueryRouter позволяет маршрутизировать запросы к различным LLM, включая топовые модели от Anthropic. Вы можете протестировать Opus 4.5 в реальных задачах: начиная от кодирования до анализа данных.
Модель доступна по API, а попробовать пообщаться можно прямо в интерфейсе чата.
В заключение, Claude Opus 4.5 — это не революция, но солидный апгрейд, который укрепляет позиции Anthropic в гонке ИИ. Если вы работаете с кодом, агентами или сложными задачами, эта модель стоит вашего внимания.