AI / LLM

Локальная LLM на сервере в 2026: модели, железо, стек и бюджеты

25.05.2026 • 3 мин чтения • 121 просмотров • 0 лайков

Почему вопрос «локальная LLM на сервере» в 2026 году задают не айтишники, а собственники бизнеса

Раньше запустить нейросеть на своём железе было хобби энтузиастов с RTX 3090. В 2026 году вопрос всё чаще задают собственники бизнеса — клиники, юрфирмы, ритейл-сети. Сошлись три фактора.

Первый — штрафы по 152-ФЗ выросли в десятки раз: с 30 мая 2025 года утечка персональных данных от 100 000 субъектов обходится юр.лицу в 10–15 млн ₽ (ст. 13.11 ч. 14 КоАП). Каждый промпт в ChatGPT с данными клиента — это трансграничная передача, требующая согласия и уведомления РКН.

Второй — оплата иностранных API из РФ делается через костыли: виртуальные карты, посредники, серый OpenRouter с СБП. У бизнеса с белой бухгалтерией это вопросы у налоговой и принципиальное недовольство финдиректора.

Третий — опенсорсные модели догнали платные API. Llama 4 Maverick, Qwen 3 235B, DeepSeek V3.2 в декабре 2025 выдают качество уровня GPT-4-Turbo и Claude 3.5 Sonnet на русском. Ставить их на свой сервер стало реальной альтернативой, а не компромиссом.

15 млн ₽

штраф за утечку ПДн от 100 000 субъектов — ст. 13.11 ч. 14 КоАП с 30.05.2025

~55 ГБ

VRAM нужно Llama 4 Scout (109B/17B активных) в INT4 — помещается на 1× H100

×9

разрыв в throughput у vLLM против Ollama при 8 параллельных пользователях (Red Hat, 2026)

50%+

загрузка GPU нужна, чтобы self-hosted 7B окупился относительно API за 12 мес

Локальная LLM — это не про «модно и круто». Это про два конкретных KPI: 152-ФЗ закрыт без юр.рисков и нет валютной зависимости от карты на Кипре, через которую вы платите OpenAI.

Зачем self-hosted LLM в 2026: три ниши, где это окупается

Не каждому бизнесу нужна локальная нейросеть. Если вы используете ChatGPT для написания постов в соцсети — оставайтесь на ChatGPT. Self-hosted имеет смысл только тогда, когда хотя бы один из трёх факторов критичен: приватность данных, объём трафика или независимость от санкций.

1. Регуляторика и 152-ФЗ

Частый сценарий на правовых аудитах: компания крутит автоматизацию через n8n или Make, который дёргает Claude/GPT API с реальными ФИО, телефонами и заказами клиентов. Каждый вызов — трансграничная передача ПДн (ст. 12 152-ФЗ). США не входят в список стран с адекватной защитой по приказу Роскомнадзора № 128 от 05.08.2022. Передавать туда можно только с отдельным согласием и уведомлением РКН — на практике никто этого не делает.

Локальная LLM решает проблему радикально: данные не покидают периметр компании. Подробности правовой стороны — в материале «152-ФЗ и нейросети: отправлять ли данные клиентов в ChatGPT».

2. Большие объёмы запросов

API-провайдеры берут деньги за каждый токен. Claude Sonnet — $3 за 1M входящих и $15 за 1M исходящих. GPT-5.2 — $1.75 / $14. Бот на десятки тысяч обращений в день или агент-классификатор миллионов документов — счёт улетает в сотни тысяч долларов в год. Self-hosted окупается при загрузке GPU 50%+ для 7B и 10%+ для 13B (TCO-анализ SitePoint, 2026). Сервер 2× H100 за 8 млн ₽ при загрузке 70% даёт стоимость токена в 6–8 раз ниже API на горизонте 24 месяцев.

3. Vendor lock и оплата

Бизнес со встроенным Claude API зависит от трёх вещей: цены (Anthropic поднимает её на 20% в год), доступности (санкции) и стабильности (один баг в API кладёт всю линейку). Локальная модель — актив, а не подписка.

Когда self-hosted НЕ нужен

Меньше 5000 запросов в день — на API дешевле, и думать ни о чём не надо.
Нужны frontier-возможности — Claude Opus 4.7, GPT-5.2 reasoning. Локальные модели пока на полступени отстают по сложному reasoning и tool use.
Нет команды или подрядчика, кто умеет обслуживать GPU-сервер. Самохост — это ops-нагрузка, а не только железо.

Какие модели реально работают локально в 2026

Зоопарк моделей за 2025 год вырос настолько, что выбор стал отдельной задачей. Я отобрал шесть, которые реально стоит рассматривать для self-hosted в российском бизнесе. Все они опенсорсные, поддерживают русский язык на уровне «уверенного B2-C1» и имеют активное сообщество.

Семейство Llama 4 (Meta, апрель 2025)

Главное в Llama 4 — переход на MoE-архитектуру (Mixture of Experts). Большое число общих параметров, но при обработке каждого токена активируется только часть. Модель по качеству как 70B, по скорости — как 17B.

Llama 4 Scout — 109B общих, 17B активных. В Q4 занимает ~55 ГБ, помещается на H100 80GB или на RTX 5090 32GB в Q3. Лучший выбор для SMB с одним GPU.
Llama 4 Maverick — 400B общих, 17B активных. Q4 требует ~200 ГБ VRAM + 16 ГБ KV-cache, минимум 3× H100. Для большинства бизнесов перебор.
Llama 4 Behemoth — 2T+ параметров, анонсирована Meta на Q3 2026. Для исследователей и крупных enterprise.

Семейство Qwen 3 (Alibaba, май 2025 + Qwen 3.5/3.6 2026)

Серия из Китая с линейкой от 0.6B до 235B и специализированными вариантами (Coder, Reasoner, VL). По бенчмаркам Will It Run AI, Qwen 3 235B-A22B (235B/22B активных) занимает ~132 ГБ в Q4 — хватит 2× H100 или 1× H200. На русском работает уверенно: на задаче классификации клиентских обращений мы получали 92% точности против 94% у Claude Sonnet.

DeepSeek V3.2 (декабрь 2025)

Модель из Китая, в декабре 2025 переписавшая табель по бенчмаркам. 671B общих, 37B активных. По цифрам — уровень Claude Opus 4.7, что для опенсорса беспрецедентно. Минус: в FP8 требует ~700 ГБ VRAM (671 ГБ веса + 30–60 ГБ на KV-cache и активации). Это 8× H200 141GB, не меньше. Стоимость сервера в мае 2026 — 40–60 млн ₽. Для SMB нереально, но для банков и крупного enterprise — стоит того.

Что выбрать для типичного бизнеса

В 80% случаев правильный ответ — Llama 4 Scout или Qwen 3 27B/32B на одном H100. Этого достаточно для:

Бота поддержки на 5–10 тысяч диалогов в день
Автоматической классификации тикетов
Извлечения данных из документов (счета, договоры, КП)
Простой генерации текстов под брендовый стиль

«Догонит ли опенсорс GPT-5 и Claude Opus» — неправильный вопрос. Правильный: достаточно ли хороша Llama 4 Scout, чтобы ваша задача решалась. В 90% бизнес-кейсов SMB — да.

Железо: GPU, VRAM, бюджет

Главное, что нужно понять про железо для LLM: VRAM решает, что вы можете запустить, а пропускная способность памяти решает, как быстро это будет работать. Обычная оперативка и CPU практически не имеют значения, если у вас есть GPU.

Сколько VRAM нужно по факту

Правило большого пальца: на каждый миллиард параметров MoE-модели в Q4-квантизации нужно ~0.55 ГБ VRAM. Для dense-моделей (Llama 3, Qwen 2) — ~0.6–0.7 ГБ на миллиард. Плюс 10–20% сверху на KV-cache для контекста и оверхед фреймворка.

Модель (Q4)	Размер на диске	VRAM с KV-cache	Минимум железа
Llama 3.1 8B	~5 ГБ	~9 ГБ	RTX 3060 12GB / RTX 4070
Qwen 3 14B	~8 ГБ	~14 ГБ	RTX 4080 16GB / RTX 3090
Llama 4 Scout 109B/17B	~55 ГБ	~70 ГБ	H100 80GB / RTX 5090 32GB (Q3)
Qwen 3 235B/22B	~120 ГБ	~135 ГБ	2× H100 / 1× H200 141GB
Llama 4 Maverick 400B/17B	~200 ГБ	~220 ГБ	3× H100 / 2× H200
DeepSeek V3.2 671B/37B	~670 ГБ	~700 ГБ	8× H200 141GB

Бюджеты на железо (май 2026, цены РФ)

Эконом: 250–400 тыс. ₽. Сервер на RTX 4090 24GB или RTX 5090 32GB. Модели до 32B в Q4. Стартапу или ИП на пробу. Десктопная видеокарта в стойке плохо охлаждается — нужен корпус с хорошим airflow.
Стандарт: 2–4 млн ₽. 1× H100 80GB или A100 80GB. Llama 4 Scout, Qwen 3 27B/32B, Mistral Large. Золотая середина для SMB на 50–200 сотрудников. Через российских интеграторов с НДС — 3.5–4 млн ₽ под ключ.
Enterprise: 8–15 млн ₽. 2× H100 или 1× H200 141GB. Qwen 3 235B и Llama 4 Maverick в Q4. Имеет смысл от 500+ сотрудников или 50k+ диалогов в день.
Банк/корпорация: 40–60 млн ₽. 8× H200 кластер для DeepSeek V3.2 671B. Не «попробовать», а стратегический актив.

Реальные расходы, о которых не пишут в калькуляторах

Электричество. H100 ест 700 Вт под нагрузкой. При тарифе 7 ₽/кВт·ч это ~4200 ₽/мес только за один GPU при загрузке 80%. Для сервера с 2× H100 + охлаждение и сетевое — 12–15 тыс. ₽/мес.
Аренда стойки в ЦОД. Если ставить не «под столом», то 1U стойки в московском ЦОД уровня Tier III — от 20 тыс. ₽/мес. Подключение 10 Гбит — ещё столько же.
Резервирование. Один GPU = одна точка отказа. Для критичной нагрузки нужна вторая такая же машина, плюс быстрое восстановление.
ОПС-нагрузка. Это самая дорогая часть. Инженер, который умеет настраивать vLLM, тюнить кванты и дебажить OOM-краши, стоит 250–400 тыс. ₽/мес. Без него self-hosted превращается в боль.

Стек: Ollama vs vLLM vs LM Studio — что выбрать

Когда железо есть, встаёт второй вопрос: чем запускать модель? В 2026 году в опенсорсе устоялась тройка лидеров: Ollama, vLLM и LM Studio. Каждый — для своего сценария.

Ollama: «взял, запустил, забыл»

Самый простой. Команда ollama run llama4:scout — модель уже отвечает в чате. Под капотом llama.cpp с GGUF-квантами, работает на чём угодно, включая Apple Silicon через MLX. Хорош для разработчика на ноутбуке, прототипа автоматизации и тестов перед продом.

Минусы вылезают под нагрузкой. По бенчмаркам Red Hat 2026, при 8 параллельных пользователях Ollama выдаёт 41 ток/сек, vLLM на том же железе — 793 ток/сек. Разница в 19 раз. P99 latency у Ollama — 673 мс, у vLLM — 80 мс. Для прода не годится.

vLLM: продакшен по умолчанию

Если бот обслуживает реальных пользователей в реальном времени — это vLLM. Главная фишка — continuous batching: фреймворк собирает запросы в один батч, прогоняет через GPU и раздаёт ответы. KV-cache переиспользуется через PagedAttention. На Llama 3 8B (FP16) при 8 пользователях vLLM выдаёт 187 ток/сек против 82 у Ollama. Минус: сложнее в установке и тюнинге — нужно понимать tensor parallelism, prefix caching и quantization configs.

LM Studio: для команд без DevOps

GUI-инструмент: простота Ollama плюс визуальный интерфейс. Поддерживает GGUF и MLX, работает на macOS / Windows / Linux. Хорош для команды дизайнеров или маркетологов, которые хотят локальный ChatGPT без терминала. Под нагрузкой — где-то между Ollama и vLLM.

Шпаргалка по выбору

Один разработчик, прототип, тест → Ollama
Команда без DevOps на Mac/Windows → LM Studio
Прод с реальной нагрузкой (бот, агент, API) → vLLM
На Apple Silicon (M2/M3/M4) → Ollama в MLX-режиме (быстрее vLLM на этой архитектуре)

Что ставить поверх

vLLM или Ollama — это сервер инференса. Чтобы превратить в продукт, нужны:

OpenAI-совместимый API — vLLM и Ollama дают «из коробки», код под OpenAI SDK работает с локальной моделью без изменений (только base_url).
Оркестрация — n8n, LangChain, LlamaIndex для агентов из нескольких шагов.
Векторная база — Qdrant, Weaviate или Milvus для RAG.
Мониторинг — Prometheus + Grafana или Langfuse для трассировки промптов и стоимости.

Когда самохост не имеет смысла

За последний год мы с командой Эко ОС посмотрели десятки попыток поставить локальную LLM в SMB-бизнесе. Половина закончилась тем, что компания вернулась на API. Вот четыре частые ошибки, которые превращают идею «свой ИИ-сервер» в дорогую неработающую игрушку.

Ошибка 1: «У нас 50 запросов в день, но хотим свою модель»

Математика: 50 × 1000 токенов × 22 рабочих дня = 1.1 млн токенов/мес. На Claude Sonnet это $18/мес, около 1500 ₽. Self-hosted на H100: 2 млн ₽ железа + 15 тыс. ₽/мес электричества + DevOps. Окупаемость — никогда. Решение: оставайтесь на API.

Ошибка 2: «Купили GPU, а кто обслуживать будет — потом»

Самая частая. Сервер встал, инференс падает раз в неделю, модель в Q4 теряет качество, никто не понимает почему. Через 3 месяца уезд обратно на API «с разочарованием». Решение: подрядчик или штатный инженер до того, как GPU приехал.

Ошибка 3: «Локальная модель должна работать как Claude»

Не должна. Llama 4 Scout на 10–15% слабее Claude Opus в сложном reasoning и коде. Решение: гибридная схема — простые задачи локально, сложные через API с предварительной анонимизацией данных.

Ошибка 4: «Один сервер на всё»

Один H100 не выдержит одновременно бота поддержки, генерации текстов и embeddings для поиска. Embeddings на BGE-M3 (3 ГБ), классификация на 4B-модели, чат на Scout. Решение: разделение по специализации, а не one-model-fits-all.

Локальная LLM — это не «купил один раз». Это инфраструктурное решение со своей операционкой, бюджетом, рисками и людьми. Если вы не готовы к этому, оставайтесь на API.

Частые вопросы

Минимальная рабочая сборка для бизнеса — от 250 тыс. ₽: десктоп на Intel i9 / AMD Ryzen 9, 64 ГБ оперативки, RTX 4090 24GB или RTX 5090 32GB, NVMe SSD 2 ТБ под модели. Запускает Llama 4 Scout в Q3-квантизации, Qwen 3 14B, Mistral 7B. Серверный вариант с H100 80GB через российских интеграторов с гарантией и поддержкой — 2.5–4 млн ₽. Плюс электричество ~5 тыс. ₽/мес и аренда стойки в ЦОД от 20 тыс. ₽/мес, если не держать дома.

По бенчмаркам MERA и ru-MMLU в начале 2026 года Qwen 3 32B и Llama 4 Scout идут практически вровень — оба понимают русский на уровне C1, грамотно склоняют, не путают падежи. DeepSeek V3.2 формально лучший по бенчмаркам, но запустить его локально может только enterprise с 8× H200 за 50 млн ₽. Для SMB практичный выбор — Llama 4 Scout или Qwen 3 32B. Российские GigaChat и YandexGPT работают через API провайдеров, их «self-hosted» в обычном понимании нет.

Если модель крутится на вашем сервере в РФ и данные не уходят за пределы периметра — да, трансграничная передача отсутствует, согласие на неё не требуется. Но 152-ФЗ требует и другого: уведомить РКН о начале обработки ПДн (ст. 22), вести политику обработки, иметь согласия субъектов на обработку как таковую, локализовать первичный сбор в БД РФ. Self-hosted LLM решает один большой блок — трансграничную передачу — но не отменяет остальные требования. Полный список — в нашей статье «152-ФЗ и нейросети».

vLLM использует continuous batching и PagedAttention — это технологии, которые позволяют одному GPU обслуживать десятки параллельных запросов с переиспользованием KV-кэша. Ollama под капотом llama.cpp, у которого батчинг базовый и параллельность плохо масштабируется. Результат: при одиночном пользователе оба работают примерно одинаково (130–180 ток/сек на 7B-модели). При 8 параллельных пользователях vLLM выдаёт 793 ток/сек, Ollama — 41. То есть для прода с многими одновременными запросами разница в 19 раз. Для прототипа на одного человека — разницы нет, берите Ollama для простоты.

Точка окупаемости зависит от модели и интенсивности. По данным TCO-анализа SitePoint 2026 года: для 7B-моделей нужна загрузка GPU 50%+ суток на дискретной видеокарте за 250 тыс. ₽; для 13B-моделей и H100 за 3 млн ₽ — от 10% загрузки. На практике для бизнеса со стабильным потоком от 10 000 запросов в день self-hosted окупается за 12–18 месяцев. Меньше — оставайтесь на API. Учитывайте, что в TCO входит электричество, ЦОД и инженер — это часто дороже самого железа.

Использовать гибридную схему — самую частую у наших клиентов. Простые задачи (классификация тикетов, извлечение реквизитов из счёта, ответы на типовые вопросы) — на локальной Llama 4 Scout без передачи данных за периметр. Сложные (написание длинных текстов под бренд, multi-step reasoning, генерация кода) — через Claude/GPT API, но с предварительной анонимизацией ПДн через Microsoft Presidio или RuPresidio. Так вы получаете максимум качества там, где нужно, и закрываете 152-ФЗ там, где данные чувствительные.

Можно делить один GPU между несколькими моделями через vLLM или Triton Inference Server, но это снижает throughput основной модели на 20–40% и усложняет тюнинг. Правильный вариант для прода — отдельный инстанс под embeddings. Модели типа BGE-M3 (3 ГБ) или multilingual-e5-large (1.5 ГБ) спокойно живут на старой RTX 3060 12GB за 35 тыс. ₽ и выдают тысячи векторов в секунду. Разделение специализаций — стандартный паттерн на проде, а не one-model-fits-all.

Не хотите разбираться сами — соберём под ключ

В Эко ОС и AIBot.Direct мы делаем локальные LLM-стенды под бизнес заказчика: подбираем модель под задачи, разворачиваем vLLM с мониторингом, интегрируем с n8n / CRM / Telegram-ботом, обучаем команду. От аудита текущих процессов до прода — 4–6 недель. Закрываем 152-ФЗ, локализуем данные в РФ, привязываем юр.лицо к серверу.

Расскажите про свой кейс — пришлём расчёт железа и сроков под него: пройти короткий квиз → или написать в Telegram @aibotdirect_bot.

        Понравилась статья? Поставь лайк.
      

Нужна ИИ-автоматизация под ваш бизнес?

Запишитесь на бесплатную консультацию — обсудим задачу и пришлём готовое решение.

Обсудить проект →