Содержание

Claude Opus 4.7 — новая модель Anthropic: обзор, бенчмарки, цены | 2026

16.04.2026 • 2 мин чтения • 22 просмотров • 0 лайков

Что такое Claude Opus 4.7 и когда он вышел

Claude Opus 4.7 — новейшая версия флагманской модели Anthropic. Общедоступность наступила 16 апреля 2026 года, через 70 дней после Opus 4.6. Anthropic держит ритм быстрых инкрементов вместо редких «мегарелизов».

Что это в двух предложениях

Claude Opus 4.7 — это AI, который впервые реально можно «отпустить» на сложную инженерную задачу и не сидеть над ним. Модель сама выбирает инструменты, восстанавливается после ошибок API, доводит работу до конца. По сравнению с 4.6 ошибок при вызове инструментов стало в 3 раза меньше.

SWE-bench Pro: 64,3%

Главный бенчмарк по реальному программированию. Лучший результат среди всех frontier-моделей: GPT-5.4 — 57,7%, Gemini 3.1 Pro — 54,2%.

+10,9 п.п. к Opus 4.6

1 миллион токенов

Контекст около 750 страниц текста. Модель сама отслеживает оставшийся бюджет токенов и приоритизирует работу внутри task budgets.

Без доплаты за длинный контекст

Зрение 3,75 МП

Картинки до 2576 px по длинной стороне — в 3 раза больше прошлых Claude. Читает мелкий шрифт в договорах и техдиаграммах без галлюцинаций.

XBOW: 98,5% против 54,5%

Что такое SWE-bench Pro

Это бенчмарк, где AI-модель должна решить реальную задачу из open-source репозитория: прочитать код, понять баг, написать фикс, пройти тесты. «Pro»-версия построена так, чтобы модель не могла «вспомнить» решение из обучающих данных.

Anthropic сделала SWE-bench Pro ключевым бенчмарком после того, как OpenAI признала: обычный SWE-bench Verified «засорен» — модели видели эти задачи при обучении.

Главное: Скачок в Агентном Кодинге

Anthropic открыто целит 4.7 в одну главную задачу — автономная работа с кодом. Это когда модель не пишет одну функцию, а разруливает задачу на 10+ шагов: читает репозиторий, планирует, правит несколько файлов, запускает тесты, исправляет ошибки.

Цифры по бенчмаркам

Бенчмарк	Opus 4.6	Opus 4.7	Разница
SWE-bench Pro	53,4%	64,3%	+10,9 п.п.
CursorBench (Cursor AI-IDE)	58%	70%	+12 п.п.
Rakuten-SWE-Bench	×1	×3	в 3 раза больше задач
Terminal-Bench 2.0	65,4%	+3 новые задачи	нашёл race condition
Ошибки при вызове инструментов	×1	×0,33	−66%

Ключевая формулировка Anthropic

«Opus 4.7 на низком усилии ≈ Opus 4.6 на среднем».

При тех же деньгах и той же скорости вы получаете ту же глубину рассуждений, что раньше требовала явного «extended thinking». Для продакшена это значит — экономия токенов без потери качества.

Implicit-need tests: что это и почему важно

Opus 4.7 — первая модель Claude, которая проходит implicit-need tests. В таких тестах модели не говорят, какие инструменты использовать — она должна сама догадаться из контекста. Это фундамент для реально автономных агентов, где сценарий не прописан заранее.

Adaptive Thinking и Новый Уровень xhigh

В Opus 4.6 режим «extended thinking» включался отдельным параметром API. В 4.7 это работает по умолчанию и адаптивно: модель сама решает, сколько думать.

Простой запрос

«Что такое API?» — ответ за секунду. Модель не тратит токены на внутренние рассуждения, потому что задача тривиальная.

Сложный запрос

«Отрефактори вот этот модуль и не сломай тесты» — несколько минут внутренних рассуждений, полный план, проверка, потом ответ. Без явного включения режима.

Уровень xhigh

В API появился новый уровень усилия — xhigh, между high и max. В Claude Code он стоит дефолтом для всех тарифов. Anthropic считает, что большинству реальных задач по коду полезно думать именно на этом уровне — достаточно глубоко, но без максимального бюджета на размышления.

Task budgets — public beta

На длинных задачах теперь можно явно задать бюджет токенов. Модель отслеживает оставшийся бюджет и приоритизирует работу, а не резко останавливается при исчерпании квоты. Для продакшн-агентов, работающих часами, это снимает главную головную боль — предсказуемую стоимость.

Зрение 2K и Работа с Документами

Opus 4.7 принимает изображения до 2576 px по длинной стороне (около 3,75 мегапикселя). В три раза больше прошлых Claude. Для бизнеса это не про «распознать котиков», а про реальные задачи:

Договоры и КП от поставщиков — модель читает мелкий шрифт без потерь
Финансовые отчёты и таблицы — понимает структуру сложных сеток
Технические диаграммы и архитектурные схемы — узнаёт компоненты и связи
Скриншоты дашбордов и CRM — извлекает данные без отдельного OCR-слоя

Цифры, которые впечатляют

Бенчмарк	Opus 4.6	Opus 4.7
XBOW — автономный пентест по скриншотам	54,5%	98,5%
Databricks OfficeQA Pro — офисные документы	базовый уровень	−21% ошибок
Harvey BigLaw Bench — legal	85,1%	90,9% на high

XBOW — платформа автономных пентест-агентов — назвала этот прирост «устранением главного болевого момента»: раньше агент не мог надёжно читать скриншоты экранов, теперь может.

Opus 4.7 против GPT-5.4 и Gemini 3.1 Pro

В апреле 2026 года три главных frontier-модели — Claude Opus 4.7, OpenAI GPT-5.4 и Google Gemini 3.1 Pro. Разобрали, где каждая сильнее.

Claude Opus 4.7

Берите для: автономных AI-агентов, сложных кодинг-задач, legal и finance анализа, длинных многошаговых workflow, задач, где важна надёжность.

Цена: $5 / $25 за 1M токенов. Контекст: 1M.

GPT-5.4

Берите для: креативного контента и текстов, математики, голосовых интерфейсов, интеграций с ChatGPT-экосистемой.

Цена: около $1,25 / $10 за 1M. Контекст: 400k.

Gemini 3.1 Pro

Берите для: очень длинных документов (2M контекст), нативного multimodal с видео и аудио, массовой генерации, задач в Google-стеке.

Цена: $2 / $12 за 1M. Контекст: 2M.

Паритет на абстрактном рассуждении

GPQA Diamond (graduate-level reasoning): Opus 4.7 — 94,2%, GPT-5.4 — 94,4%, Gemini 3.1 Pro — 94,3%. Разница в пределах статистической погрешности. Frontier-модели эту задачу «закрыли», конкуренция ушла в прикладные бенчмарки.

Что Это Значит Для Бизнеса

Мы в AIBot.Direct смотрим на каждый релиз через один вопрос: «На каких задачах клиенту теперь можно отдать работу AI, а не держать человека?». По Opus 4.7 ответ такой.

Продакшн-боты с длинным сценарием

Раньше: на 10-м шаге агент уходил в галлюцинацию, роняя цепочку.

С Opus 4.7: ошибок в 3 раза меньше, устойчивость к падениям API — боты стабильно держат сложные сценарии обработки заявок, интеграций, возвратов.

Разбор входящих документов

Раньше: секретарь вручную заносил счета от поставщиков в 1С.

С Opus 4.7: бот принимает PDF/скан, извлекает реквизиты, сумму, позиции, кладёт в учётку. Зрение 2K читает даже плохие сканы.

Внутренние AI-ассистенты над кодом

Раньше: AI писал функции, но не мог взять задачу из Jira и «докрутить».

С Opus 4.7: можно отдавать задачи уровня «добавь фичу в легаси-сервис, не сломай тесты» — модель доводит до конца.

Legal-автоматизация

Раньше: юрист вычитывал 50 договоров за неделю.

С Opus 4.7: 90,9% на BigLaw Bench, корректно различает уступку прав и change-of-control — первая Claude-модель, которую реально можно пускать на legal review.

Вывод для владельца бизнеса

Если у вас есть процесс, где человек делает 10+ шагов с данными из нескольких систем — именно этот процесс сейчас можно автоматизировать на Opus 4.7. Раньше нужно было резать на мелкие блоки и склеивать руками, теперь — нет.

Миграция с Opus 4.6: Три Нюанса

Если у вас уже работает что-то на Claude 4.6, переход на 4.7 — это замена идентификатора модели в коде: claude-opus-4-6 → claude-opus-4-7. Но учтите три момента.

1. Новый токенизатор

Тот же текст теперь весит в 1,0–1,35 раза больше токенов. Anthropic рекомендует измерять расход на реальном трафике, а не применять единый множитель. На кодинг-задачах баланс остаётся в плюсе — модель думает эффективнее.

2. Буквальное следование инструкциям

Opus 4.7 понимает инструкции буквально. «Будь кратким» теперь значит «минимум слов», а не «с маркированными списками». Старые промпты, которые полагались на «мягкое игнорирование» части указаний, могут выдавать неожиданные результаты. Их стоит перечитать.

3. Больше размышлений на поздних шагах агентов

В агентных сценариях модель думает глубже на финальных шагах. Это повышает надёжность сложных workflow, но генерирует чуть больше output-токенов. Для длинных цепочек используйте task budgets.

Цены и Как Начать

Claude Opus 4.7 доступен четырьмя способами: напрямую через Anthropic API, Amazon Bedrock, Google Vertex AI и Microsoft Foundry. В веб-интерфейсе — claude.ai для Pro/Team-подписчиков.

Input (API)

$5 / 1M

Output (API)

$25 / 1M

Batch API (−50%)

$2,5 / $12,5

Claude Pro

$20 / мес

Как сэкономить на API

Prompt Caching — системные промпты и большие документы кешируются, экономия до 90%.
Batch API — для фоновых задач (анализ логов, массовая классификация) — скидка 50%.
Sonnet 4.6 для рутины. Opus 4.7 — только там, где нужен флагман. Разница в цене — в 5 раз.
Task budgets — для длинных агентов, чтобы не улетала стоимость.

Частые Вопросы

Источники

Частые вопросы

Общедоступность — 16 апреля 2026 года, через 70 дней после Opus 4.6. Главное: ошибок при вызове инструментов стало в 3 раза меньше. SWE-bench Pro: 64.3% — лучший результат среди frontier-моделей.

SWE-bench Pro — версия теста по реальному программированию, где модель не может «вспомнить» решение из обучающих данных. OpenAI признала: обычный SWE-bench Verified «засорён» — модели видели эти задачи при обучении.

Ключевой скачок: +10.9 п.п. на SWE-bench Pro (53.4% → 64.3%), +12 п.п. на CursorBench. Модель сама отслеживает оставшийся бюджет токенов и приоритизирует работу в длинных пайплайнах.

Изображения до 2576 px по длинной стороне — в 3 раза больше прошлых версий Claude. Читает мелкий шрифт в договорах и технических диаграммах. XBOW-бенчмарк: 98.5% против 54.5% у предыдущей версии.

GPT-5.5 лидирует на SWE-bench Verified: 88.7%. Opus 4.7 лидирует на SWE-bench Pro: 64.3% (GPT-5.4 — 57.7%). Разница в том, что GPT-5.5 оптимизирован под известные задачи, Opus 4.7 — под реальные новые.

$5 за 1M входных токенов и $25 за 1M выходных — те же цены, что у Opus 4.6. Контекст 1 миллион токенов входит в стандартную цену без надбавки.

        Понравилась статья? Поставь лайк.
      

Нужна ИИ-автоматизация под ваш бизнес?

Запишитесь на бесплатную консультацию — обсудим задачу и пришлём готовое решение.

Обсудить проект →