AI / LLM
Локальная LLM на сервере в 2026: модели, железо, стек и бюджеты
Почему вопрос «локальная LLM на сервере» в 2026 году задают не айтишники, а собственники бизнеса
Раньше запустить нейросеть на своём железе было хобби энтузиастов с RTX 3090. В 2026 году вопрос всё чаще задают собственники бизнеса — клиники, юрфирмы, ритейл-сети. Сошлись три фактора.
Первый — штрафы по 152-ФЗ выросли в десятки раз: с 30 мая 2025 года утечка персональных данных от 100 000 субъектов обходится юр.лицу в 10–15 млн ₽ (ст. 13.11 ч. 14 КоАП). Каждый промпт в ChatGPT с данными клиента — это трансграничная передача, требующая согласия и уведомления РКН.
Второй — оплата иностранных API из РФ делается через костыли: виртуальные карты, посредники, серый OpenRouter с СБП. У бизнеса с белой бухгалтерией это вопросы у налоговой и принципиальное недовольство финдиректора.
Третий — опенсорсные модели догнали платные API. Llama 4 Maverick, Qwen 3 235B, DeepSeek V3.2 в декабре 2025 выдают качество уровня GPT-4-Turbo и Claude 3.5 Sonnet на русском. Ставить их на свой сервер стало реальной альтернативой, а не компромиссом.
Локальная LLM — это не про «модно и круто». Это про два конкретных KPI: 152-ФЗ закрыт без юр.рисков и нет валютной зависимости от карты на Кипре, через которую вы платите OpenAI.
Зачем self-hosted LLM в 2026: три ниши, где это окупается
Не каждому бизнесу нужна локальная нейросеть. Если вы используете ChatGPT для написания постов в соцсети — оставайтесь на ChatGPT. Self-hosted имеет смысл только тогда, когда хотя бы один из трёх факторов критичен: приватность данных, объём трафика или независимость от санкций.
1. Регуляторика и 152-ФЗ
Частый сценарий на правовых аудитах: компания крутит автоматизацию через n8n или Make, который дёргает Claude/GPT API с реальными ФИО, телефонами и заказами клиентов. Каждый вызов — трансграничная передача ПДн (ст. 12 152-ФЗ). США не входят в список стран с адекватной защитой по приказу Роскомнадзора № 128 от 05.08.2022. Передавать туда можно только с отдельным согласием и уведомлением РКН — на практике никто этого не делает.
Локальная LLM решает проблему радикально: данные не покидают периметр компании. Подробности правовой стороны — в материале «152-ФЗ и нейросети: отправлять ли данные клиентов в ChatGPT».
2. Большие объёмы запросов
API-провайдеры берут деньги за каждый токен. Claude Sonnet — $3 за 1M входящих и $15 за 1M исходящих. GPT-5.2 — $1.75 / $14. Бот на десятки тысяч обращений в день или агент-классификатор миллионов документов — счёт улетает в сотни тысяч долларов в год. Self-hosted окупается при загрузке GPU 50%+ для 7B и 10%+ для 13B (TCO-анализ SitePoint, 2026). Сервер 2× H100 за 8 млн ₽ при загрузке 70% даёт стоимость токена в 6–8 раз ниже API на горизонте 24 месяцев.
3. Vendor lock и оплата
Бизнес со встроенным Claude API зависит от трёх вещей: цены (Anthropic поднимает её на 20% в год), доступности (санкции) и стабильности (один баг в API кладёт всю линейку). Локальная модель — актив, а не подписка.
Когда self-hosted НЕ нужен
- Меньше 5000 запросов в день — на API дешевле, и думать ни о чём не надо.
- Нужны frontier-возможности — Claude Opus 4.7, GPT-5.2 reasoning. Локальные модели пока на полступени отстают по сложному reasoning и tool use.
- Нет команды или подрядчика, кто умеет обслуживать GPU-сервер. Самохост — это ops-нагрузка, а не только железо.
Какие модели реально работают локально в 2026
Зоопарк моделей за 2025 год вырос настолько, что выбор стал отдельной задачей. Я отобрал шесть, которые реально стоит рассматривать для self-hosted в российском бизнесе. Все они опенсорсные, поддерживают русский язык на уровне «уверенного B2-C1» и имеют активное сообщество.
Семейство Llama 4 (Meta, апрель 2025)
Главное в Llama 4 — переход на MoE-архитектуру (Mixture of Experts). Большое число общих параметров, но при обработке каждого токена активируется только часть. Модель по качеству как 70B, по скорости — как 17B.
- Llama 4 Scout — 109B общих, 17B активных. В Q4 занимает ~55 ГБ, помещается на H100 80GB или на RTX 5090 32GB в Q3. Лучший выбор для SMB с одним GPU.
- Llama 4 Maverick — 400B общих, 17B активных. Q4 требует ~200 ГБ VRAM + 16 ГБ KV-cache, минимум 3× H100. Для большинства бизнесов перебор.
- Llama 4 Behemoth — 2T+ параметров, анонсирована Meta на Q3 2026. Для исследователей и крупных enterprise.
Семейство Qwen 3 (Alibaba, май 2025 + Qwen 3.5/3.6 2026)
Серия из Китая с линейкой от 0.6B до 235B и специализированными вариантами (Coder, Reasoner, VL). По бенчмаркам Will It Run AI, Qwen 3 235B-A22B (235B/22B активных) занимает ~132 ГБ в Q4 — хватит 2× H100 или 1× H200. На русском работает уверенно: на задаче классификации клиентских обращений мы получали 92% точности против 94% у Claude Sonnet.
DeepSeek V3.2 (декабрь 2025)
Модель из Китая, в декабре 2025 переписавшая табель по бенчмаркам. 671B общих, 37B активных. По цифрам — уровень Claude Opus 4.7, что для опенсорса беспрецедентно. Минус: в FP8 требует ~700 ГБ VRAM (671 ГБ веса + 30–60 ГБ на KV-cache и активации). Это 8× H200 141GB, не меньше. Стоимость сервера в мае 2026 — 40–60 млн ₽. Для SMB нереально, но для банков и крупного enterprise — стоит того.
Что выбрать для типичного бизнеса
В 80% случаев правильный ответ — Llama 4 Scout или Qwen 3 27B/32B на одном H100. Этого достаточно для:
- Бота поддержки на 5–10 тысяч диалогов в день
- Автоматической классификации тикетов
- Извлечения данных из документов (счета, договоры, КП)
- Простой генерации текстов под брендовый стиль
«Догонит ли опенсорс GPT-5 и Claude Opus» — неправильный вопрос. Правильный: достаточно ли хороша Llama 4 Scout, чтобы ваша задача решалась. В 90% бизнес-кейсов SMB — да.
Железо: GPU, VRAM, бюджет
Главное, что нужно понять про железо для LLM: VRAM решает, что вы можете запустить, а пропускная способность памяти решает, как быстро это будет работать. Обычная оперативка и CPU практически не имеют значения, если у вас есть GPU.
Сколько VRAM нужно по факту
Правило большого пальца: на каждый миллиард параметров MoE-модели в Q4-квантизации нужно ~0.55 ГБ VRAM. Для dense-моделей (Llama 3, Qwen 2) — ~0.6–0.7 ГБ на миллиард. Плюс 10–20% сверху на KV-cache для контекста и оверхед фреймворка.
| Модель (Q4) | Размер на диске | VRAM с KV-cache | Минимум железа |
|---|---|---|---|
| Llama 3.1 8B | ~5 ГБ | ~9 ГБ | RTX 3060 12GB / RTX 4070 |
| Qwen 3 14B | ~8 ГБ | ~14 ГБ | RTX 4080 16GB / RTX 3090 |
| Llama 4 Scout 109B/17B | ~55 ГБ | ~70 ГБ | H100 80GB / RTX 5090 32GB (Q3) |
| Qwen 3 235B/22B | ~120 ГБ | ~135 ГБ | 2× H100 / 1× H200 141GB |
| Llama 4 Maverick 400B/17B | ~200 ГБ | ~220 ГБ | 3× H100 / 2× H200 |
| DeepSeek V3.2 671B/37B | ~670 ГБ | ~700 ГБ | 8× H200 141GB |
Бюджеты на железо (май 2026, цены РФ)
- Эконом: 250–400 тыс. ₽. Сервер на RTX 4090 24GB или RTX 5090 32GB. Модели до 32B в Q4. Стартапу или ИП на пробу. Десктопная видеокарта в стойке плохо охлаждается — нужен корпус с хорошим airflow.
- Стандарт: 2–4 млн ₽. 1× H100 80GB или A100 80GB. Llama 4 Scout, Qwen 3 27B/32B, Mistral Large. Золотая середина для SMB на 50–200 сотрудников. Через российских интеграторов с НДС — 3.5–4 млн ₽ под ключ.
- Enterprise: 8–15 млн ₽. 2× H100 или 1× H200 141GB. Qwen 3 235B и Llama 4 Maverick в Q4. Имеет смысл от 500+ сотрудников или 50k+ диалогов в день.
- Банк/корпорация: 40–60 млн ₽. 8× H200 кластер для DeepSeek V3.2 671B. Не «попробовать», а стратегический актив.
Реальные расходы, о которых не пишут в калькуляторах
- Электричество. H100 ест 700 Вт под нагрузкой. При тарифе 7 ₽/кВт·ч это ~4200 ₽/мес только за один GPU при загрузке 80%. Для сервера с 2× H100 + охлаждение и сетевое — 12–15 тыс. ₽/мес.
- Аренда стойки в ЦОД. Если ставить не «под столом», то 1U стойки в московском ЦОД уровня Tier III — от 20 тыс. ₽/мес. Подключение 10 Гбит — ещё столько же.
- Резервирование. Один GPU = одна точка отказа. Для критичной нагрузки нужна вторая такая же машина, плюс быстрое восстановление.
- ОПС-нагрузка. Это самая дорогая часть. Инженер, который умеет настраивать vLLM, тюнить кванты и дебажить OOM-краши, стоит 250–400 тыс. ₽/мес. Без него self-hosted превращается в боль.
Стек: Ollama vs vLLM vs LM Studio — что выбрать
Когда железо есть, встаёт второй вопрос: чем запускать модель? В 2026 году в опенсорсе устоялась тройка лидеров: Ollama, vLLM и LM Studio. Каждый — для своего сценария.
Ollama: «взял, запустил, забыл»
Самый простой. Команда ollama run llama4:scout — модель уже отвечает в чате. Под капотом llama.cpp с GGUF-квантами, работает на чём угодно, включая Apple Silicon через MLX. Хорош для разработчика на ноутбуке, прототипа автоматизации и тестов перед продом.
Минусы вылезают под нагрузкой. По бенчмаркам Red Hat 2026, при 8 параллельных пользователях Ollama выдаёт 41 ток/сек, vLLM на том же железе — 793 ток/сек. Разница в 19 раз. P99 latency у Ollama — 673 мс, у vLLM — 80 мс. Для прода не годится.
vLLM: продакшен по умолчанию
Если бот обслуживает реальных пользователей в реальном времени — это vLLM. Главная фишка — continuous batching: фреймворк собирает запросы в один батч, прогоняет через GPU и раздаёт ответы. KV-cache переиспользуется через PagedAttention. На Llama 3 8B (FP16) при 8 пользователях vLLM выдаёт 187 ток/сек против 82 у Ollama. Минус: сложнее в установке и тюнинге — нужно понимать tensor parallelism, prefix caching и quantization configs.
LM Studio: для команд без DevOps
GUI-инструмент: простота Ollama плюс визуальный интерфейс. Поддерживает GGUF и MLX, работает на macOS / Windows / Linux. Хорош для команды дизайнеров или маркетологов, которые хотят локальный ChatGPT без терминала. Под нагрузкой — где-то между Ollama и vLLM.
Шпаргалка по выбору
- Один разработчик, прототип, тест → Ollama
- Команда без DevOps на Mac/Windows → LM Studio
- Прод с реальной нагрузкой (бот, агент, API) → vLLM
- На Apple Silicon (M2/M3/M4) → Ollama в MLX-режиме (быстрее vLLM на этой архитектуре)
Что ставить поверх
vLLM или Ollama — это сервер инференса. Чтобы превратить в продукт, нужны:
- OpenAI-совместимый API — vLLM и Ollama дают «из коробки», код под OpenAI SDK работает с локальной моделью без изменений (только base_url).
- Оркестрация — n8n, LangChain, LlamaIndex для агентов из нескольких шагов.
- Векторная база — Qdrant, Weaviate или Milvus для RAG.
- Мониторинг — Prometheus + Grafana или Langfuse для трассировки промптов и стоимости.
Когда самохост не имеет смысла
За последний год мы с командой Эко ОС посмотрели десятки попыток поставить локальную LLM в SMB-бизнесе. Половина закончилась тем, что компания вернулась на API. Вот четыре частые ошибки, которые превращают идею «свой ИИ-сервер» в дорогую неработающую игрушку.
Ошибка 1: «У нас 50 запросов в день, но хотим свою модель»
Математика: 50 × 1000 токенов × 22 рабочих дня = 1.1 млн токенов/мес. На Claude Sonnet это $18/мес, около 1500 ₽. Self-hosted на H100: 2 млн ₽ железа + 15 тыс. ₽/мес электричества + DevOps. Окупаемость — никогда. Решение: оставайтесь на API.
Ошибка 2: «Купили GPU, а кто обслуживать будет — потом»
Самая частая. Сервер встал, инференс падает раз в неделю, модель в Q4 теряет качество, никто не понимает почему. Через 3 месяца уезд обратно на API «с разочарованием». Решение: подрядчик или штатный инженер до того, как GPU приехал.
Ошибка 3: «Локальная модель должна работать как Claude»
Не должна. Llama 4 Scout на 10–15% слабее Claude Opus в сложном reasoning и коде. Решение: гибридная схема — простые задачи локально, сложные через API с предварительной анонимизацией данных.
Ошибка 4: «Один сервер на всё»
Один H100 не выдержит одновременно бота поддержки, генерации текстов и embeddings для поиска. Embeddings на BGE-M3 (3 ГБ), классификация на 4B-модели, чат на Scout. Решение: разделение по специализации, а не one-model-fits-all.
Локальная LLM — это не «купил один раз». Это инфраструктурное решение со своей операционкой, бюджетом, рисками и людьми. Если вы не готовы к этому, оставайтесь на API.
Частые вопросы
Не хотите разбираться сами — соберём под ключ
В Эко ОС и AIBot.Direct мы делаем локальные LLM-стенды под бизнес заказчика: подбираем модель под задачи, разворачиваем vLLM с мониторингом, интегрируем с n8n / CRM / Telegram-ботом, обучаем команду. От аудита текущих процессов до прода — 4–6 недель. Закрываем 152-ФЗ, локализуем данные в РФ, привязываем юр.лицо к серверу.
Расскажите про свой кейс — пришлём расчёт железа и сроков под него: пройти короткий квиз → или написать в Telegram @aibotdirect_bot.
Нужна ИИ-автоматизация под ваш бизнес?
Запишитесь на бесплатную консультацию — обсудим задачу и пришлём готовое решение.
Обсудить проект →