Новинка

Gemma 4 от Google — обзор, бенчмарки и как запустить локально

2 апреля 2026 Google выпустила Gemma 4 — семейство открытых мультимодальных моделей под лицензией Apache 2.0. Разбираем все версии, сравниваем с конкурентами и показываем, как запустить на своём компьютере за 5 минут.

18 минут чтения Обновлено: 03.04.2026

Что такое Gemma 4

Gemma 4 — это семейство открытых мультимодальных AI-моделей от Google, выпущенное 2 апреля 2026 года. Google называет их «самыми способными открытыми моделями на сегодняшний день» — и бенчмарки это подтверждают.

Если коротко: Gemma 4 — это мощь уровня GPT-4 в компактном формате, который можно запустить на своём ноутбуке. Бесплатно. Без облака. Без подписок.

Главное за 30 секунд

  • 4 размера: от 2B (Raspberry Pi) до 31B (флагман)
  • Мультимодальность: текст, изображения, видео, аудио
  • Apache 2.0: полностью свободная коммерческая лицензия
  • 140+ языков включая русский
  • #3 в мире в рейтинге Arena AI (31B версия)

Название «Gemma» происходит от латинского слова «драгоценный камень». Это младшая сестра Gemini — закрытой модели Google. Разница в том, что Gemma полностью открыта: веса можно скачать, запустить локально и использовать в коммерческих проектах без ограничений.

В отличие от Gemma 3, которая использовала ограничивающую «Gemma Open License», четвёртая версия перешла на Apache 2.0 — золотой стандарт open-source лицензирования. Это снимает все барьеры для бизнеса.

Все модели Gemma 4: от 2B до 31B

Google выпустила четыре модели разного размера. Каждая под свою задачу:

Модель Параметры Активных Контекст Для чего
E2B 5.1B 2.3B 128K Raspberry Pi, IoT, встраиваемые устройства
E4B 8B 4.5B 128K Смартфоны, ноутбуки, edge-устройства
26B MoE 26B 3.8B 256K Оптимальное соотношение скорости и качества
31B Dense 31B 31B 256K Максимальное качество, флагман семейства

E2B и E4B — нейросеть в кармане

Модели серии «E» (Effective) — это сверхкомпактные версии для работы на устройствах. E2B запускается на Raspberry Pi и NVIDIA Jetson Nano с near-zero latency. E4B — на любом современном смартфоне.

При этом обе модели мультимодальны: понимают текст и изображения. Для устройств такого класса это было немыслимо ещё год назад.

26B MoE — лучший баланс

Это первая модель в семействе Gemma с архитектурой Mixture of Experts (MoE). Хотя формально в ней 26 миллиардов параметров, при обработке каждого токена активируются только 3.8 миллиарда. Результат — скорость 4B-модели при качестве 26B.

Что такое MoE?

Mixture of Experts — архитектура, где модель состоит из множества «экспертов» (подсетей). Для каждого запроса активируются только те эксперты, которые нужны. Это как офис, где каждый вопрос направляется нужному специалисту, а не проходит через всех сотрудников.

26B MoE заняла 6-е место в мировом рейтинге Arena AI — при том, что у неё всего 3.8B активных параметров. Это впечатляющая эффективность.

31B Dense — флагман

Плотная модель на 31 миллиард параметров. Все параметры активны при каждом запросе — максимальное качество, но и максимальные требования к железу. Занимает 3-е место в Arena AI, обгоняя модели в 20 раз крупнее.

Ключевые возможности

Нативная мультимодальность

Gemma 4 понимает не только текст. Все модели (кроме самых маленьких) работают с:

  • Изображениями — распознавание, описание, OCR, определение объектов
  • Видео — анализ содержимого, ответы на вопросы о видео
  • Аудио — распознавание речи, транскрибация, ответы на основе аудио
  • GUI-распознавание — понимает скриншоты интерфейсов, может кликать по элементам

Vision Encoder использует переменный aspect ratio (от 70 до 1120 токенов на изображение) — разработчик сам выбирает баланс между точностью и скоростью.

Расширенное мышление (Chain-of-Thought)

Gemma 4 умеет «думать» перед ответом — выстраивать цепочку рассуждений для сложных задач. Это особенно заметно в математике и программировании:

  • AIME 2026 (математика): 89.2% — был 20.8% в Gemma 3
  • LiveCodeBench (код): 80.0% — был 29.1%

Мышление можно включить или выключить — полезно, когда нужен быстрый ответ без лишних рассуждений.

Автономные агенты

Gemma 4 нативно поддерживает function calling — вызов внешних инструментов. Это значит, что на её основе можно строить AI-агентов, которые:

  • Ищут информацию в интернете
  • Обращаются к API и базам данных
  • Выполняют многошаговые задачи
  • Генерируют структурированный JSON

140+ языков

Модель обучена на данных из 140+ языков. Русский язык поддерживается «из коробки» — качество генерации и понимания значительно улучшено по сравнению с Gemma 3.

Бенчмарки и сравнение с конкурентами

Цифры говорят сами за себя. Вот результаты флагманской 31B-модели:

Бенчмарк Gemma 3 (27B) Gemma 4 (31B) Рост
MMLU Pro (знания) 85.2%
AIME 2026 (математика) 20.8% 89.2% +68.4%
LiveCodeBench (код) 29.1% 80.0% +50.9%
GPQA Diamond (наука) 84.3%
MMMU Pro (зрение) 76.9%
BigBench Extra Hard 19% 74% +55%
Arena AI (рейтинг) #3 в мире

Рост в 4 раза по математике

С 20.8% до 89.2% на AIME 2026 — это не эволюция, а скачок поколений. Для открытой модели такого размера это беспрецедентный результат. Секрет — в режиме chain-of-thought, который позволяет модели «думать» на 4000+ токенов перед ответом.

Gemma 4 vs Llama 4 vs Mistral

Как Gemma 4 выглядит на фоне других открытых моделей? Сравним по ключевым параметрам:

Параметр Gemma 4 (31B) Llama 3.1 (70B) Mistral Large
Лицензия Apache 2.0 Llama License (ограничения) Apache 2.0
Мультимодальность Текст + изображения + видео + аудио Текст + изображения Текст + изображения
Локальный запуск 18 ГБ (MoE 26B) 40+ ГБ API only
Контекст 256K токенов 128K токенов 128K токенов
Языки 140+ 8 ~10
Function Calling Нативный Нативный Нативный
Edge-устройства Да (от Raspberry Pi) Нет Нет

Главное преимущество Gemma 4 — плотность интеллекта на параметр. 31B параметров Gemma конкурируют с 70B Llama, при этом требуя вдвое меньше памяти. MoE-версия на 26B вообще активирует лишь 3.8B — и при этом держится в топ-6 мирового рейтинга.

Лицензия Apache 2.0 — ещё одно преимущество. Llama ограничивает использование для компаний с 700+ млн пользователей и запрещает обучать конкурирующие модели. У Gemma 4 таких ограничений нет.

Архитектура: почему она такая быстрая

Google применила несколько архитектурных инноваций, которые объясняют эффективность Gemma 4:

Alternating Attention

Модель чередует два типа внимания: local sliding-window (для ближайшего контекста) и global full-context (для всего документа). Это позволяет обрабатывать длинные тексты без квадратичного роста вычислений.

Dual RoPE

Два типа позиционного кодирования работают одновременно: стандартный RoPE для sliding-window слоёв и Proportional RoPE для длинного контекста. Результат — стабильное качество на текстах до 256K токенов (это примерно 500 страниц).

Per-Layer Embeddings (PLE)

Каждый слой модели получает дополнительную информацию о токенах. Это улучшает качество генерации без увеличения размера модели.

Shared KV Cache

Оптимизация кэша ключ-значение для длинных текстов. Позволяет генерировать текст быстрее при работе с большим контекстом.

Что это значит на практике?

Gemma 4 работает в 4 раза быстрее Gemma 3 при сопоставимом качестве. На MacBook Pro M1 Pro 26B-версия выдаёт 33 токена в секунду — это комфортная скорость для диалога в реальном времени. Плюс на 60% меньше расхода батареи на мобильных устройствах.

Как запустить Gemma 4 локально

Самый простой способ — через Ollama. Три команды — и у вас работающая нейросеть на своём компьютере.

Способ 1: Ollama (рекомендуется)

Ollama — менеджер локальных AI-моделей. Работает на macOS, Linux и Windows.

Шаг 1: Установка Ollama

# macOS / Linux
curl -fsSL https://ollama.com/install.sh | sh

# Windows — скачайте установщик с ollama.com

Шаг 2: Скачивание модели

# Оптимальная версия (26B MoE — лучший баланс скорости и качества)
ollama pull gemma4

# Компактная версия (4B — для слабых машин)
ollama pull gemma4:4b

# Флагман (31B Dense — максимальное качество)
ollama pull gemma4:31b

Шаг 3: Запуск

# Интерактивный чат
ollama run gemma4

# API-сервер (для интеграции в приложения)
# Ollama автоматически поднимает API на localhost:11434
curl http://localhost:11434/api/generate -d '{
  "model": "gemma4",
  "prompt": "Объясни квантовые вычисления простыми словами"
}'

Способ 2: LM Studio (графический интерфейс)

Если вы предпочитаете работать через GUI:

  1. Скачайте LM Studio с lmstudio.ai
  2. В поиске введите «gemma 4»
  3. Выберите нужную версию и нажмите Download
  4. Перейдите в Chat и начните общение

Способ 3: Hugging Face + transformers

Для разработчиков Python — через библиотеку transformers:

pip install transformers torch

from transformers import AutoTokenizer, AutoModelForCausalLM

model_name = "google/gemma-4-27b-it"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto")

inputs = tokenizer("Что такое искусственный интеллект?", return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=500)
print(tokenizer.decode(outputs[0]))

Требования к железу

Модель RAM / VRAM Примеры устройств Скорость
E2B (2B) 4 ГБ Raspberry Pi, Jetson Nano ~15 tok/s
E4B (4B) 8 ГБ Любой ноутбук, смартфон ~25 tok/s
26B MoE 18 ГБ (4-bit) RTX 4090, Mac M1 Pro 32GB ~33 tok/s
31B Dense 24+ ГБ RTX 4090, Mac M2 Max 64GB ~20 tok/s

Для чего использовать Gemma 4

Чат-боты и ассистенты

Gemma 4 отлично подходит для создания AI-ассистентов. Нативный function calling позволяет боту обращаться к внешним API, базам данных и инструментам. Работает локально — данные клиентов не покидают ваш сервер.

Обработка документов

Мультимодальность + контекст 256K токенов = идеальный инструмент для работы с документами. Загрузите PDF, скан или фото документа — модель распознает текст, извлечёт данные и ответит на вопросы.

Анализ видео и аудио

Загрузите видео — Gemma 4 опишет его содержимое, ответит на вопросы о конкретных моментах, создаст субтитры. Аудио-кодировщик стал на 55% компактнее, чем в Gemma 3, при лучшем качестве.

Мобильные приложения

E2B и E4B открывают новую эру: AI прямо на устройстве пользователя. Никакого облака, никакой задержки, никаких затрат на API. Приложение работает полностью офлайн — в метро, в самолёте, в зоне без связи.

Fine-tuning под свои задачи

Лицензия Apache 2.0 позволяет дообучать модель на собственных данных. Это особенно ценно для:

  • Медицинских и юридических ассистентов (специализированная терминология)
  • Корпоративных чат-ботов (база знаний компании)
  • Образовательных платформ (адаптация под уровень ученика)

Экономика: Gemma 4 vs облачные API

Допустим, команда из 5 человек тратит 50 000 ₽/мес на API (ChatGPT, Claude). RTX 4090 стоит ~200 000 ₽. С Gemma 4 на собственной карточке затраты на API = 0 ₽. Окупаемость — 4 месяца. А дальше — бесплатный AI навсегда.

Часто задаваемые вопросы

Да, полностью. Gemma 4 выпущена под лицензией Apache 2.0 — это значит бесплатное коммерческое использование без ограничений. Можно встраивать в продукты, дорабатывать, продавать решения на её основе. В отличие от Llama, нет ограничений по количеству пользователей.

Зависит от версии. E2B (2B параметров) работает даже на Raspberry Pi. E4B (4B) — на любом современном ноутбуке с 8 ГБ RAM. 26B MoE требует 18 ГБ VRAM (RTX 4090 или Mac с 32 ГБ). 31B Dense — минимум 24 ГБ VRAM для комфортной работы.

Три главных отличия: 1) Архитектура MoE — модель на 26B параметров активирует только 3.8B, работая быстрее при том же качестве. 2) Лицензия Apache 2.0 вместо ограничивающей Gemma Open License. 3) Нативная мультимодальность — изображения, видео и аудио из коробки, плюс режим «глубокого мышления» (chain-of-thought).

Да, Gemma 4 обучена на 140+ языках, включая русский. Качество русского языка значительно улучшено по сравнению с Gemma 3. Модель хорошо справляется с переводами, генерацией текста и ответами на вопросы на русском.

Для своего размера — да, в ряде задач. 31B-версия Gemma 4 занимает 3-е место в мировом рейтинге Arena AI, обгоняя модели в 20 раз крупнее. Но GPT-4o и Claude по-прежнему сильнее в сложном рассуждении и длинных текстах. Главное преимущество Gemma 4 — она бесплатная и работает локально.

Установите Ollama (ollama.com), затем выполните команду: ollama pull gemma4. Для запуска чата: ollama run gemma4. По умолчанию скачается оптимальная версия для вашего железа. Для конкретной версии укажите размер: ollama pull gemma4:2b или ollama pull gemma4:27b.

Да, лицензия Apache 2.0 разрешает любое коммерческое использование. Можно создавать чат-ботов, API-сервисы, встраивать в приложения, дообучать под свои задачи и продавать решения. Никаких ограничений по количеству пользователей или доходу.

Хочешь создавать такие решения сам?

В PrideAIBot Club — полные уроки по n8n и AI-агентам, готовые шаблоны и комьюнити 40+ практиков. 5000₽/мес — один проект окупает год подписки.

15+ видео-уроков 20+ шаблонов Комьюнити Поддержка

Не хочешь сам? Закажи готовое решение за 50K₽ →

125 просмотров

Полезная статья?

Сохраните в закладки, чтобы не потерять

Ctrl + D