Три Флагмана — Три Разные Стратегии
За одну неделю апреля 2026 года все три ведущих AI-лаборатории обновили свои флагманы. Anthropic выпустила Opus 4.7 — 16 апреля. OpenAI представила GPT-5.5 — 23 апреля, и в API она доступна с 24 апреля. DeepSeek опубликовала V4-Pro и V4-Flash 24 апреля — в тот же день. Стратегии у компаний радикально разные.
DeepSeek V4 — Цена
Открытые веса (MIT), $0.14 за миллион входных токенов. Стратегия: догнать топ за десятую долю цены.
GPT-5.5 — Скорость и Кодинг
Новая retrained база, лидер по SWE-bench Verified (88.7%) и Terminal-Bench. Цена выросла в 2 раза по сравнению с 5.4.
Claude Opus 4.7 — Агенты
Лидер на SWE-bench Pro (64.3%), 1M контекст в стандартной цене, заточен под долгие агентные pipelines.
Главное за 30 секунд
- DeepSeek V4-Flash — лучшая экономика 2026 года: 79% качества флагманов за 1% цены
- GPT-5.5 — лидер по «чистому» SWE-bench Verified, но стал в 2 раза дороже GPT-5.4
- Claude Opus 4.7 — берёт на сложных агентных задачах и работе с длинным контекстом
- Разница в цене между крайностями — в 36 раз. Между GPT-5.5 Pro и V4-Flash — в 642 раза
DeepSeek V4: Pro и Flash
Дата выхода: 24 апреля 2026 года. Китайская лаборатория DeepSeek выпустила сразу две MoE-модели под лицензией MIT с открытыми весами на Hugging Face. Главное архитектурное новшество — гибридная attention (Compressed Sparse Attention + Heavily Compressed Attention), которая на 1 миллионе токенов использует всего 10% KV-cache по сравнению с предыдущей V3.2.
V4-Pro — флагман
- 1.6 триллиона параметров, 49 миллиардов активных при инференсе
- 1 миллион токенов контекста (поддерживается на стандартной цене)
- SWE-bench Verified: 80.6% — отстаёт от Claude Opus 4.6 всего на 0.2 пункта
- HMMT 2026 February: 95.2%, IMOAnswerBench: 89.8% — на уровне топовых рассуждающих моделей
- Цена: $1.74 / $3.48 за миллион токенов
V4-Flash — рабочая лошадка
- 284 миллиарда параметров, 13 миллиардов активных
- 1 миллион токенов контекста — тот же контекст что у Pro
- SWE-bench Verified: 79.0% — всего на 1.6 пункта меньше Pro
- Поддерживает thinking-режим через модель
deepseek-reasoner - Цена: $0.14 / $0.28 за миллион токенов — самая дешёвая флагман-уровневая модель в мире
Бенчмарки V4-Pro
| Бенчмарк | V4-Pro | V3.2 | Что измеряет |
|---|---|---|---|
| SWE-bench Verified | 80.6% | 67.8% | Реальные баги в open source-проектах |
| HMMT 2026 February | 95.2% | — | Гарвардский математический турнир |
| IMOAnswerBench | 89.8% | — | Задачи Международной математической олимпиады |
| AIME 2025 | 93.5% | 89.3% | American Invitational Mathematics Examination |
| FLOPs на 1М контекст | 27% | 100% | Доля вычислений vs предыдущей версии |
| KV-cache на 1М контекст | 10% | 100% | Использование памяти на длинном контексте |
Зачем нужны две модели вместо одной?
DeepSeek копирует стратегию OpenAI и Anthropic: маленькая модель (V4-Flash) для массовых задач, большая (V4-Pro) для редких сложных. Но в отличие от конкурентов разница в цене у DeepSeek меньше: Pro дороже Flash в 12 раз, тогда как у OpenAI GPT-5.5 Pro дороже обычной GPT-5.5 в 6 раз, но обе уже стартуют от $5. У DeepSeek даже Pro дешевле, чем GPT-5.5-mini.
Self-hosting V4 — реально ли?
Веса открыты, но требования серьёзные. V4-Pro в FP8: ~800 ГБ VRAM, нужен кластер из 8–16 H100/H200 или Mac Studio M3 Ultra с 512 ГБ unified memory (только в Q4). V4-Flash в Q4: ~140 ГБ, помещается на 2× H100 80 ГБ или Mac Studio с 192 ГБ. Для большинства проектов API дешевле, чем электричество и амортизация.
GPT-5.5: Новая База OpenAI
Дата выхода: 23 апреля 2026 года, в API с 24 апреля. GPT-5.5 — первая полностью retrained базовая модель OpenAI с момента GPT-4.5. Это не fine-tune предыдущей версии, а свежий цикл предобучения. И это первый раз с момента запуска линейки 5.x, когда OpenAI повысила цену в 2 раза.
Ключевые возможности
- SWE-bench Verified: 88.7% — лидер среди всех проприетарных моделей
- Terminal-Bench 2.0: 82.7% — обходит Claude Mythos Preview, ставит state-of-the-art
- GDPval: 84.9% — собственный бенч OpenAI на 44 экономически значимые профессии
- Artificial Analysis Intelligence Index: 60 — на 3 пункта выше Opus 4.7 и Gemini 3.1 Pro
- FrontierMath Tier 4: 35.4% — против 22.9% у Opus 4.7 и 16.7% у Gemini 3.1 Pro
- Контекст: 400К токенов (без увеличения относительно GPT-5.4)
Бенчмарки GPT-5.5 vs GPT-5.4
| Бенчмарк | GPT-5.5 | GPT-5.4 | Прирост |
|---|---|---|---|
| SWE-bench Verified | 88.7% | ~84% | +4.7 п.п. |
| Terminal-Bench 2.0 | 82.7% | 75.1% | +7.6 п.п. |
| SWE-bench Pro | 58.6% | ~55% | +3.6 п.п. |
| FrontierMath Tier 4 | 35.4% | ~22% | +13 п.п. |
| Цена (in / out) | $5 / $30 | $2.50 / $15 | ×2 дороже |
Цена выросла в 2 раза. Стоит ли оно того?
Прирост 4.7 пункта на SWE-bench Verified — заметный, но не революционный. На реальных задачах GPT-5.4 уже хорошо справлялась — переплата в 2 раза оправдана только если ваши пайплайны упирались в потолок именно по этому бенчмарку. Для большинства задач GPT-5.4 (или ещё лучше — DeepSeek V4-Flash) — рациональнее.
GPT-5.5 Pro — флагман флагмана
Параллельно с GPT-5.5 OpenAI запустила GPT-5.5 Pro с более глубоким режимом размышлений. Цена — $30 / $180 за миллион токенов. Это в 17 раз дороже Claude Opus 4.7 и в 642 раза дороже DeepSeek V4-Flash. Реально нужен только в редких научных кейсах (FrontierMath Tier 4, олимпиадная математика). Для бизнес-задач переплата не оправдана.
Claude Opus 4.7: Тихий Апдейт от Anthropic
Дата выхода: 16 апреля 2026 года. Anthropic выпустила Opus 4.7 без громких пресс-релизов — точечный апдейт линейки. Цена осталась прежней ($5 / $25), но появился новый токенизатор, из-за которого один и тот же текст теперь раскладывается в среднем на 0–35% больше токенов.
Ключевые возможности
- SWE-bench Pro: 64.3% — лидер среди всех моделей на самом тяжёлом бенче
- 1 миллион токенов контекста на стандартной цене (без surcharge как у GPT-4.1)
- Cache hits стоят 10% от обычной цены входа
- Batch API даёт скидку 50% на input и output
- Adaptive Thinking — модель сама решает сколько «думать» над задачей
- Цена: $5 / $25 за миллион токенов
Где Opus 4.7 впереди
| Бенчмарк | Opus 4.7 | GPT-5.5 | V4-Pro |
|---|---|---|---|
| SWE-bench Pro (агенты) | 64.3% | 58.6% | — |
| SWE-bench Verified | ~84% | 88.7% | 80.6% |
| FrontierMath Tier 4 | 22.9% | 35.4% | — |
| Контекст (стандарт) | 1M | 400K | 1M |
| Цена in | $5 | $5 | $1.74 |
| Цена out | $25 | $30 | $3.48 |
Подвох с новым токенизатором
Headline-цена Opus 4.7 не изменилась относительно 4.6 ($5/$25), но новый токенизатор раскладывает текст плотнее: тот же запрос теперь занимает 0–35% больше токенов в зависимости от типа контента. На практике реальные счета вырастут на 15–25% при том же объёме работы. Anthropic оправдывает это улучшенным пониманием текста, но фактически это скрытое повышение цены.
Сравнительная Таблица: Все Флагманы Рядом
Ключевые параметры пяти моделей в одной таблице для быстрого выбора.
| Параметр | V4-Flash | V4-Pro | GPT-5.5 | GPT-5.5 Pro | Opus 4.7 |
|---|---|---|---|---|---|
| Дата выхода | 24.04.26 | 24.04.26 | 23.04.26 | 23.04.26 | 16.04.26 |
| Цена: вход | $0.14 | $1.74 | $5 | $30 | $5 |
| Цена: выход | $0.28 | $3.48 | $30 | $180 | $25 |
| Контекст | 1M | 1M | 400K | 400K | 1M |
| SWE-bench Verified | 79.0% | 80.6% | 88.7% | — | ~84% |
| SWE-bench Pro | — | — | 58.6% | — | 64.3% |
| Open source | Да (MIT) | Да (MIT) | Нет | Нет | Нет |
| Тип архитектуры | MoE 13B/284B | MoE 49B/1.6T | Dense (?) | Dense (?) | Dense (?) |
| Vision API | Нет | Нет | Да | Да | Да |
| Размышления | Да (reasoner) | Да | Да | Глубже | Да (adaptive) |
Реальная Экономика: 1 Миллион Запросов
Бенчмарки — это абстракция. Реальные деньги — это сколько вы заплатите за работу. Возьмём типичный запрос на генерацию контента: 2 000 токенов на вход, 8 000 на выход. Прогон 1 миллиона таких запросов:
| Модель | Стоимость 1М запросов | Множитель |
|---|---|---|
| GPT-5.5 Pro | $1 500 000 | ×595 |
| GPT-5.5 | $250 000 | ×99 |
| Claude Opus 4.7 | $210 000 | ×83 |
| GPT-5.4 | $125 000 | ×50 |
| GPT-4.1 | $68 000 | ×27 |
| DeepSeek V4-Pro | $31 320 | ×12 |
| GPT-5.4 nano | $10 400 | ×4.1 |
| GPT-4.1 nano | $3 400 | ×1.3 |
| DeepSeek V4-Flash | $2 520 | ×1.0 |
На типичных задачах генерации контента DeepSeek V4-Flash дешевле GPT-5.5 в 99 раз. На сравнимом качестве для большинства бизнес-сценариев. Это не маркетинг, это арифметика.
Что это значит на практике
Если ваш проект генерит 100 000 запросов в месяц (типично для среднего SaaS с AI-функциями):
- На GPT-5.5 вы платите $25 000 / месяц
- На Claude Opus 4.7 — $21 000 / месяц
- На DeepSeek V4-Flash — $252 / месяц
Разница в год — около $300 000. Этого хватит на найм senior-разработчика. И это при примерно одинаковом качестве на типовых задачах.
Разные паттерны нагрузки
Экономика зависит от паттерна. Возьмём три сценария:
| Сценарий | Input/Output | V4-Flash | GPT-5.5 | Экономия |
|---|---|---|---|---|
| Классификация писем | 1K / 50 | $0.16 | $6.50 | ×40 |
| Генерация лендинга | 2K / 8K | $2.52 | $250 | ×99 |
| Анализ длинного документа | 50K / 2K | $7.56 | $310 | ×41 |
| Чат-бот (multi-turn) | 5K / 1K | $0.98 | $55 | ×56 |
Чем длиннее output — тем сильнее выигрыш DeepSeek V4-Flash, потому что разница в цене на output больше, чем на input.
Какую Модель Выбрать Под Задачу
Простой алгоритм выбора по типу задачи и приоритету.
DeepSeek V4-Flash — массовые задачи
Классификация, экстракция полей, генерация контента, переводы, суммаризация, простые ответы в чат-ботах, обработка форм. 90% реальных бизнес-задач закрываются здесь за 1% бюджета конкурентов.
DeepSeek V4-Pro — критичные задачи
Сложный анализ документов, длинные кодовые рефакторинги, агентные сценарии с 1М контекста. Когда Flash недостаточно, но платить $5/$25 как Anthropic не хочется. На 90% дешевле GPT-5.5.
GPT-5.5 — кодинг high-end
Задачи где каждый процент SWE-bench Verified важен. Code review большой кодовой базы, автокомплит сложных функций, дебаггинг production-проблем. 88.7% — лидер на этом бенче.
Claude Opus 4.7 — агенты
Долгие агентные пайплайны где модель проходит цепочку из 10+ инструментов. SWE-bench Pro лидер, 1M контекст в стандарте. Ниже галлюцинирует на инструкциях.
GPT-5.5 Pro — научные задачи
Олимпиадная математика, исследовательские вопросы где FrontierMath Tier 4 — релевантный бенч. В обычных бизнес-задачах переплата ×17 не оправдана.
Vision и Audio
DeepSeek не имеет vision и audio API. Для фото/PDF — GPT-5.5, Claude Opus 4.7 или Gemini 2.0 Flash (последний бесплатен на низких объёмах). Для транскрипции аудио — OpenAI Whisper, Deepgram, AssemblyAI.
Гибридная Схема — Экономия 90%+
Реальные продакшен-системы редко используют одну модель на все задачи. Гибридный подход — несколько моделей с маршрутизацией по сложности — часто даёт лучшую экономику при сравнимом качестве.
Типичная гибридная архитектура
- Первичная классификация → DeepSeek V4-Flash или Claude Haiku 4.5 (быстро, дёшево, 95% точности)
- Простая обработка (большинство кейсов) → DeepSeek V4-Flash
- Сложные кейсы (5–10% от общего объёма) → DeepSeek V4-Pro или Claude Opus 4.7
- Vision/Audio → Gemini 2.0 Flash (vision) + Whisper (audio)
- Финальная проверка качества (LLM-as-Judge) → DeepSeek V4-Pro в режиме reasoning
Реальный кейс: Завод сайтов Эко ОС
До миграции пайплайн генерации сайтов работал на GPT-5.4-mini с LLM-as-Judge на GPT-5.4. Стоимость: ~$200 на сайт. После перехода на DeepSeek V4-Flash (генерация) + V4-Pro в reasoning-режиме (judge) — стоимость упала до ~$4 на сайт. Экономия 98% при том же стандарте качества (проверено через Langfuse-метрики). Это и есть смысл гибрида.
Когда не стоит экономить
- Vision-задачи — DeepSeek нет vision, Gemini Flash хорош, но GPT-5.5 vision точнее на сложных фото с мелким текстом
- Realtime голос — у DeepSeek нет Realtime API, нужен OpenAI Realtime или ElevenLabs Conversational AI
- Юридические/медицинские документы — где ошибка дорого стоит, GPT-5.5 или Opus 4.7 надёжнее по галлюцинациям
- Задачи где FrontierMath релевантен — GPT-5.5 (35.4%) сильно опережает остальных
Цель не «использовать одну самую дешёвую модель», а «использовать самую дешёвую достаточную для каждой задачи». 80% массового потока на V4-Flash + 20% критичного на премиум — оптимум 2026 года.
Часто задаваемые вопросы
V4-Flash — компактная MoE-модель: 284 млрд параметров, 13 млрд активных, цена $0.14/$0.28 за миллион токенов. V4-Pro — топовая MoE: 1.6 трлн параметров, 49 млрд активных, цена $1.74/$3.48. Разница в качестве на коде небольшая (79.0% vs 80.6% SWE-bench Verified), а цена отличается в 12 раз. Для большинства задач Flash достаточно.
По бенчмаркам — почти. На SWE-bench Verified GPT-5.5 даёт 88.7%, V4-Pro 80.6% — разница 8 пунктов. На SWE-bench Pro Opus 4.7 (64.3%) обходит и GPT-5.5 (58.6%), и V4-Pro. Но V4-Pro в 7 раз дешевле GPT-5.5 на output и в 17 раз дешевле Opus 4.7. На практике для бизнес-задач (тексты, классификация, экстракция) разница в качестве не заметна, а экономия — двузначная.
DeepSeek V4-Flash: $0.14 на вход и $0.28 на выход за миллион токенов. Это в 36 раз дешевле GPT-5.5 ($5/$30) и в 89 раз дешевле Claude Opus 4.7 ($5/$25 при тех же токенах, но из-за нового токенизатора у Anthropic фактически на 30% больше токенов на тот же текст). Для массовой обработки — безусловный лидер.
Pro-версия использует более глубокий режим рассуждений и стоит $30/$180 за миллион токенов — это в 6 раз дороже обычного GPT-5.5. Реально нужен только в редких кейсах (FrontierMath Tier 4, сложные научные задачи). Для 99% бизнес-задач переплата не оправдана.
Да. И V4-Flash, и V4-Pro поддерживают 1М контекст благодаря гибридной attention-архитектуре (CSA + HCA). На 1М токенах V4-Pro использует только 27% FLOPs и 10% KV-cache по сравнению с V3.2. Для сравнения: GPT-5.5 — 400К контекст, Claude Opus 4.7 — 1М, Gemini 3.1 Pro — 1М.
Да. Обе модели (V4-Pro и V4-Flash) опубликованы на Hugging Face под лицензией MIT. Можно скачать веса и запустить локально, но требования к железу серьёзные: V4-Pro в FP8 — около 800 ГБ VRAM (8× H100/H200), V4-Flash в Q4 — около 140 ГБ (2× H100 или Mac Studio M3 Ultra 192 ГБ). Для большинства проектов проще через API.
На SWE-bench Verified GPT-5.5 показывает 88.7%, Claude Opus 4.7 — около 84%. Но на SWE-bench Pro (более реалистичный бенч с реальными GitHub-задачами) Opus 4.7 ведёт с 64.3% против 58.6% у GPT-5.5. То есть на простых задачах GPT-5.5 быстрее и точнее, на сложных long-horizon агентных кейсах — Claude. По цене GPT-5.5 дешевле ($5/$30 vs $5/$25, но у Claude новый токенизатор).
Если приоритет — экономия и достаточно «хорошего» качества: DeepSeek V4-Flash. Если нужен максимальный кодинг и есть бюджет: GPT-5.5 для коротких быстрых задач, Claude Opus 4.7 для долгих агентных pipelines. Гибрид (Flash для массовых задач + Pro/GPT-5.5/Opus для критичных) обычно даёт лучшую экономику.
Источники
- DeepSeek API Docs: V4 Preview Release
- DeepSeek V4-Pro on Hugging Face
- Simon Willison: DeepSeek V4 Review
- OpenAI: Introducing GPT-5.5
- Anthropic: Introducing Claude Opus 4.7
- Claude API Pricing
- OpenRouter: DeepSeek V4-Pro Pricing
- Artificial Analysis: Intelligence Index
- SWE-bench Leaderboards
- VentureBeat: DeepSeek V4 Arrives