Свежий релиз

Claude Opus 4.7: новая модель Anthropic, которая переписывает правила агентного кодинга

16 апреля 2026 года Anthropic выпустила Claude Opus 4.7. Цена та же, что у 4.6, но +11 пунктов на SWE-bench Pro, зрение 2K, adaptive thinking по умолчанию и новый уровень xhigh. Разбираем, что именно изменилось и что это значит для бизнеса.

11 минут чтения Опубликовано: 16 апреля 2026

Что такое Claude Opus 4.7 и когда он вышел

Claude Opus 4.7 — новейшая версия флагманской модели Anthropic. Общедоступность наступила 16 апреля 2026 года, через 70 дней после Opus 4.6. Anthropic держит ритм быстрых инкрементов вместо редких «мегарелизов».

Что это в двух предложениях

Claude Opus 4.7 — это AI, который впервые реально можно «отпустить» на сложную инженерную задачу и не сидеть над ним. Модель сама выбирает инструменты, восстанавливается после ошибок API, доводит работу до конца. По сравнению с 4.6 ошибок при вызове инструментов стало в 3 раза меньше.

SWE-bench Pro: 64,3%

Главный бенчмарк по реальному программированию. Лучший результат среди всех frontier-моделей: GPT-5.4 — 57,7%, Gemini 3.1 Pro — 54,2%.

+10,9 п.п. к Opus 4.6

1 миллион токенов

Контекст около 750 страниц текста. Модель сама отслеживает оставшийся бюджет токенов и приоритизирует работу внутри task budgets.

Без доплаты за длинный контекст

Зрение 3,75 МП

Картинки до 2576 px по длинной стороне — в 3 раза больше прошлых Claude. Читает мелкий шрифт в договорах и техдиаграммах без галлюцинаций.

XBOW: 98,5% против 54,5%

Что такое SWE-bench Pro

Это бенчмарк, где AI-модель должна решить реальную задачу из open-source репозитория: прочитать код, понять баг, написать фикс, пройти тесты. «Pro»-версия построена так, чтобы модель не могла «вспомнить» решение из обучающих данных.

Anthropic сделала SWE-bench Pro ключевым бенчмарком после того, как OpenAI признала: обычный SWE-bench Verified «засорен» — модели видели эти задачи при обучении.

Главное: Скачок в Агентном Кодинге

Anthropic открыто целит 4.7 в одну главную задачу — автономная работа с кодом. Это когда модель не пишет одну функцию, а разруливает задачу на 10+ шагов: читает репозиторий, планирует, правит несколько файлов, запускает тесты, исправляет ошибки.

Цифры по бенчмаркам

Бенчмарк Opus 4.6 Opus 4.7 Разница
SWE-bench Pro 53,4% 64,3% +10,9 п.п.
CursorBench (Cursor AI-IDE) 58% 70% +12 п.п.
Rakuten-SWE-Bench ×1 ×3 в 3 раза больше задач
Terminal-Bench 2.0 65,4% +3 новые задачи нашёл race condition
Ошибки при вызове инструментов ×1 ×0,33 −66%

Ключевая формулировка Anthropic

«Opus 4.7 на низком усилии ≈ Opus 4.6 на среднем».

При тех же деньгах и той же скорости вы получаете ту же глубину рассуждений, что раньше требовала явного «extended thinking». Для продакшена это значит — экономия токенов без потери качества.

Implicit-need tests: что это и почему важно

Opus 4.7 — первая модель Claude, которая проходит implicit-need tests. В таких тестах модели не говорят, какие инструменты использовать — она должна сама догадаться из контекста. Это фундамент для реально автономных агентов, где сценарий не прописан заранее.

Adaptive Thinking и Новый Уровень xhigh

В Opus 4.6 режим «extended thinking» включался отдельным параметром API. В 4.7 это работает по умолчанию и адаптивно: модель сама решает, сколько думать.

Простой запрос

«Что такое API?» — ответ за секунду. Модель не тратит токены на внутренние рассуждения, потому что задача тривиальная.

Сложный запрос

«Отрефактори вот этот модуль и не сломай тесты» — несколько минут внутренних рассуждений, полный план, проверка, потом ответ. Без явного включения режима.

Уровень xhigh

В API появился новый уровень усилия — xhigh, между high и max. В Claude Code он стоит дефолтом для всех тарифов. Anthropic считает, что большинству реальных задач по коду полезно думать именно на этом уровне — достаточно глубоко, но без максимального бюджета на размышления.

Task budgets — public beta

На длинных задачах теперь можно явно задать бюджет токенов. Модель отслеживает оставшийся бюджет и приоритизирует работу, а не резко останавливается при исчерпании квоты. Для продакшн-агентов, работающих часами, это снимает главную головную боль — предсказуемую стоимость.

Зрение 2K и Работа с Документами

Opus 4.7 принимает изображения до 2576 px по длинной стороне (около 3,75 мегапикселя). В три раза больше прошлых Claude. Для бизнеса это не про «распознать котиков», а про реальные задачи:

  • Договоры и КП от поставщиков — модель читает мелкий шрифт без потерь
  • Финансовые отчёты и таблицы — понимает структуру сложных сеток
  • Технические диаграммы и архитектурные схемы — узнаёт компоненты и связи
  • Скриншоты дашбордов и CRM — извлекает данные без отдельного OCR-слоя

Цифры, которые впечатляют

Бенчмарк Opus 4.6 Opus 4.7
XBOW — автономный пентест по скриншотам 54,5% 98,5%
Databricks OfficeQA Pro — офисные документы базовый уровень −21% ошибок
Harvey BigLaw Bench — legal 85,1% 90,9% на high

XBOW — платформа автономных пентест-агентов — назвала этот прирост «устранением главного болевого момента»: раньше агент не мог надёжно читать скриншоты экранов, теперь может.

Opus 4.7 против GPT-5.4 и Gemini 3.1 Pro

В апреле 2026 года три главных frontier-модели — Claude Opus 4.7, OpenAI GPT-5.4 и Google Gemini 3.1 Pro. Разобрали, где каждая сильнее.

GPT-5.4

Берите для: креативного контента и текстов, математики, голосовых интерфейсов, интеграций с ChatGPT-экосистемой.

Цена: около $1,25 / $10 за 1M. Контекст: 400k.

Gemini 3.1 Pro

Берите для: очень длинных документов (2M контекст), нативного multimodal с видео и аудио, массовой генерации, задач в Google-стеке.

Цена: $2 / $12 за 1M. Контекст: 2M.

Паритет на абстрактном рассуждении

GPQA Diamond (graduate-level reasoning): Opus 4.7 — 94,2%, GPT-5.4 — 94,4%, Gemini 3.1 Pro — 94,3%. Разница в пределах статистической погрешности. Frontier-модели эту задачу «закрыли», конкуренция ушла в прикладные бенчмарки.

Что Это Значит Для Бизнеса

Мы в AIBot.Direct смотрим на каждый релиз через один вопрос: «На каких задачах клиенту теперь можно отдать работу AI, а не держать человека?». По Opus 4.7 ответ такой.

Продакшн-боты с длинным сценарием

Раньше: на 10-м шаге агент уходил в галлюцинацию, роняя цепочку.

С Opus 4.7: ошибок в 3 раза меньше, устойчивость к падениям API — боты стабильно держат сложные сценарии обработки заявок, интеграций, возвратов.

Разбор входящих документов

Раньше: секретарь вручную заносил счета от поставщиков в 1С.

С Opus 4.7: бот принимает PDF/скан, извлекает реквизиты, сумму, позиции, кладёт в учётку. Зрение 2K читает даже плохие сканы.

Внутренние AI-ассистенты над кодом

Раньше: AI писал функции, но не мог взять задачу из Jira и «докрутить».

С Opus 4.7: можно отдавать задачи уровня «добавь фичу в легаси-сервис, не сломай тесты» — модель доводит до конца.

Legal-автоматизация

Раньше: юрист вычитывал 50 договоров за неделю.

С Opus 4.7: 90,9% на BigLaw Bench, корректно различает уступку прав и change-of-control — первая Claude-модель, которую реально можно пускать на legal review.

Вывод для владельца бизнеса

Если у вас есть процесс, где человек делает 10+ шагов с данными из нескольких систем — именно этот процесс сейчас можно автоматизировать на Opus 4.7. Раньше нужно было резать на мелкие блоки и склеивать руками, теперь — нет.

Миграция с Opus 4.6: Три Нюанса

Если у вас уже работает что-то на Claude 4.6, переход на 4.7 — это замена идентификатора модели в коде: claude-opus-4-6claude-opus-4-7. Но учтите три момента.

1. Новый токенизатор

Тот же текст теперь весит в 1,0–1,35 раза больше токенов. Anthropic рекомендует измерять расход на реальном трафике, а не применять единый множитель. На кодинг-задачах баланс остаётся в плюсе — модель думает эффективнее.

2. Буквальное следование инструкциям

Opus 4.7 понимает инструкции буквально. «Будь кратким» теперь значит «минимум слов», а не «с маркированными списками». Старые промпты, которые полагались на «мягкое игнорирование» части указаний, могут выдавать неожиданные результаты. Их стоит перечитать.

3. Больше размышлений на поздних шагах агентов

В агентных сценариях модель думает глубже на финальных шагах. Это повышает надёжность сложных workflow, но генерирует чуть больше output-токенов. Для длинных цепочек используйте task budgets.

Рекомендация Anthropic

Начинайте тесты на уровне high или xhigh — там прирост качества самый заметный. Claude Code уже переведён на Opus 4.7 с дефолтным xhigh, так что если вы его пользователь — миграция уже произошла без вашего участия.

Цены и Как Начать

Claude Opus 4.7 доступен четырьмя способами: напрямую через Anthropic API, Amazon Bedrock, Google Vertex AI и Microsoft Foundry. В веб-интерфейсе — claude.ai для Pro/Team-подписчиков.

Input (API)
$5 / 1M
Output (API)
$25 / 1M
Batch API (−50%)
$2,5 / $12,5
Claude Pro
$20 / мес

Как сэкономить на API

  1. Prompt Caching — системные промпты и большие документы кешируются, экономия до 90%.
  2. Batch API — для фоновых задач (анализ логов, массовая классификация) — скидка 50%.
  3. Sonnet 4.6 для рутины. Opus 4.7 — только там, где нужен флагман. Разница в цене — в 5 раз.
  4. Task budgets — для длинных агентов, чтобы не улетала стоимость.

Частые Вопросы

Что такое Claude Opus 4.7?

Claude Opus 4.7 — флагманская модель Anthropic, выпущенная 16 апреля 2026 года. Главное: рекорд 64,3% на SWE-bench Pro (против 57,7% у GPT-5.4 и 54,2% у Gemini 3.1 Pro), контекст 1 миллион токенов, adaptive thinking по умолчанию, новый уровень xhigh, зрение 3,75 мегапикселя (в 3 раза больше прошлых Claude).

Чем Opus 4.7 отличается от Opus 4.6?

Цена та же ($5/$25 за 1M токенов), но +10,9 пункта на SWE-bench Pro, минус 66% ошибок при вызове инструментов, в 3 раза больше решённых реальных задач на Rakuten-SWE-Bench, 98,5% против 54,5% на XBOW (визуальные задачи). Adaptive thinking теперь включён по умолчанию — не надо дёргать параметр extended thinking.

Сколько стоит Claude Opus 4.7?

API: $5 за 1M входных токенов, $25 за выходные. Batch API: $2,50 / $12,50 (скидка 50%). Prompt Caching даёт до 90% экономии. Claude Pro: $20 в месяц с лимитированным доступом к Opus. Для большинства задач выгоднее Sonnet 4.6.

Что такое adaptive thinking и уровень xhigh?

Adaptive thinking — режим, при котором модель сама решает, сколько думать перед ответом: на простой вопрос секунда, на сложный кодинг-запрос несколько минут внутренних рассуждений. В 4.6 это надо было явно включать, в 4.7 работает по умолчанию. Уровень xhigh — новая ступень между high и max, в Claude Code он стоит дефолтом.

Подходит ли Opus 4.7 для автоматизации бизнеса и ботов?

Да, и именно здесь прирост самый заметный. Ошибок при вызове инструментов в 3 раза меньше, устойчивость к падениям внешних API, task budgets для контроля расхода, мультиагентная координация. Это то, чего не хватало для стабильных продакшн-ботов, обрабатывающих заявки и интеграции.

Стоит ли переходить с Opus 4.6 прямо сейчас?

Если у вас продакшн на 4.6 — да. Цена та же, качество выше, переход — замена имени модели в коде. Но протестируйте на реальном трафике: новый токенизатор мапит текст в 1,0–1,35 раза больше токенов, плюс модель стала буквально следовать инструкциям — старые промпты вроде «будь кратким» могут выдавать слишком сухие ответы.

Источники

2 просмотров

Полезная статья?

Сохраните в закладки, чтобы не потерять

Ctrl + D