Актуально

RAG-бот: чат-бот, который отвечает по вашим документам

Обычный ИИ-бот галлюцинирует и выдумывает факты. RAG-бот ищет ответ в ваших файлах и отвечает только по делу. Разбираем, как это работает и как сделать своими руками.

15 минут чтения Обновлено: 28.03.2026

Что такое RAG простыми словами

Представьте, что вы сдаёте экзамен. Есть два варианта: отвечать только по памяти — или открыть шпаргалку с конкретными фактами прямо перед ответом. Первый вариант ненадёжен: можно перепутать или додумать. Второй — точный: отвечаешь строго по тому, что написано.

Именно так работает RAG (Retrieval-Augmented Generation) — технология, которая добавляет языковой модели «шпаргалку» из ваших документов.

Суть в двух предложениях

Перед тем как ответить, RAG-система находит самые релевантные фрагменты из вашей базы знаний. Потом ИИ формулирует ответ на основе этих фрагментов — а не выдумывает из головы.

Это решает главную проблему ИИ-ботов — галлюцинации. Обычная языковая модель не знает, что творится у вас в компании: какие у вас цены, какие условия договора, какие регламенты. Она начинает фантазировать. RAG-бот этого не делает: если информации в базе нет — он честно скажет «не нашёл», вместо того чтобы сочинить что-то похожее на правду.

Термин появился в 2020 году в исследовании Facebook AI (Meta). Сегодня RAG — промышленный стандарт для любого бота, который должен работать с корпоративными знаниями: документами, регламентами, прайсами, базами клиентов.

Как работает RAG-бот изнутри

Процесс делится на два этапа: индексация (подготовка базы) и поиск + генерация (когда пользователь задаёт вопрос).

Этап 1: Индексация документов

Когда вы загружаете документ в RAG-систему, происходит следующее:

  1. Нарезка на фрагменты (чанкинг) — документ режется на небольшие куски по 200–500 токенов. Слишком большой чанк плохо ищется, слишком маленький — теряет контекст.
  2. Векторизация (embedding) — каждый фрагмент превращается в числовой вектор с помощью модели embeddings. Похожие по смыслу тексты получают похожие векторы.
  3. Хранение в векторной базе — векторы сохраняются (PostgreSQL + pgvector, Pinecone, Weaviate и т.д.) вместе с исходным текстом.

Этап 2: Поиск и ответ

Когда пользователь задаёт вопрос:

  1. Вопрос тоже векторизируется — превращается в числовой вектор той же моделью.
  2. Векторный поиск — система находит N самых «близких» фрагментов по математическому сходству векторов.
  3. Формирование контекста — найденные фрагменты вставляются в промпт к LLM вместе с вопросом.
  4. Генерация ответа — языковая модель формулирует ответ, опираясь на переданный контекст.

Продвинутый режим: RAG + SQL

Для таблиц и баз данных векторный поиск работает плохо. Умные RAG-агенты умеют сами выбирать: если вопрос про «найди все дома до 5 млн с тремя комнатами» — используется SQL-запрос. Если вопрос смысловой («расскажи про преимущества этого объекта») — векторный поиск. Такой подход показан в туториале ниже.

Где применяют RAG-ботов

RAG-боты используются везде, где нужно отвечать на вопросы по конкретным данным, а не в общем.

🛒 Поддержка клиентов

Бот знает все ваши товары, условия доставки и возврата. Ищет ответ в базе товаров и FAQ, а не выдумывает. Снижает нагрузку на операторов на 60–80%.

🏠 Недвижимость

Загружаете каталог объектов в CSV — и бот умеет искать по параметрам: «двухэтажные дома с видом на реку до 20 млн». Комбинирует векторный поиск с SQL-фильтрацией.

⚖️ Юридические документы

Анализ договоров и регламентов. Юрист загружает договор и задаёт вопросы: «есть ли пункт про форс-мажор?», «какой срок расторжения?». Бот находит нужные места мгновенно.

📚 Обучение и онбординг

Новый сотрудник задаёт вопросы по внутренним инструкциям — бот отвечает по актуальным документам компании, а не по устаревшим скриптам, вшитым три года назад.

💊 Медицина и страхование

Поиск по нормативным актам, справочникам препаратов, условиям страховых полисов. RAG гарантирует точность там, где галлюцинация может причинить реальный вред.

RAG-бот vs обычный чат-бот

Критерий Обычный чат-бот RAG-бот
Источник знаний Только обучающие данные модели Ваши документы + модель
Актуальность данных До даты обучения модели Любые — загрузите и готово
Галлюцинации Частые — выдумывает «похожие» факты Редкие — отвечает по источнику
Обновление базы Переобучение модели (дорого) Просто загрузить новый файл
Специфические знания Не знает ваш продукт/регламенты Знает всё, что вы загрузили
Сложность внедрения Простое Средняя (n8n справится без кода)
Стоимость запуска Низкая Низкая (self-hosted от 500 ₽/мес)

Когда RAG не нужен

Если ваш бот ведёт простые диалоги по скриптам («выбери тему» → «вот ответ»), RAG избыточен. Он нужен тогда, когда вопросы непредсказуемы и ответы должны браться из конкретных источников.

Видео: RAG-агент за 0 рублей на n8n и Л.И.С.А.

Я записал пошаговый туториал — полный цикл от нуля до работающего RAG-агента. Показываю как загрузить текстовый документ и CSV-таблицу, настроить векторный поиск и SQL-запросы, и задавать боту вопросы в чате.

Стек полностью self-hosted и бесплатный: n8n как оркестратор, PostgreSQL + pgvector как векторная база, Ollama для локальных embeddings, OpenRouter для подключения любой LLM.

Длительность 24 минуты
Уровень С нуля
Стоимость стека 0 ₽
Платформа n8n + Л.И.С.А.

Что разобрано в видео

  • 00:00 — Что такое RAG-агент и зачем он нужен
  • 01:00 — Обзор архитектуры системы
  • 02:40 — Подключение PostgreSQL
  • 05:30 — Настройка Ollama для локальных embeddings
  • 06:30 — Подключение OpenRouter (доступ к GPT, Claude, Gemini)
  • 07:15 — Активация и загрузка файлов
  • 10:00 — Как работает векторизация документов
  • 14:00 — Тестирование: вопросы по текстовому документу
  • 17:00 — SQL-поиск: фильтрация объектов по параметрам
  • 23:00 — Где взять готовый шаблон (Л.И.С.А.)

Стек для RAG в 2026

Комбинаций для сборки RAG-бота много. Вот самые популярные варианты — от полностью бесплатного self-hosted до облачного «включил и работает».

n8n

Оркестратор. Соединяет все части системы: загрузку файлов, векторизацию, поиск, отправку в LLM и возврат ответа. Визуальный интерфейс, без кода.

Open-source · self-hosted бесплатно

PostgreSQL + pgvector

Векторная база данных. Расширение pgvector добавляет поддержку векторного поиска прямо в обычный Postgres. Не нужна отдельная специализированная база.

Open-source · бесплатно

Ollama

Локальные модели embeddings (nomic-embed-text). Векторизует тексты прямо на вашем сервере — без API-ключей и без оплаты за токены. Полная конфиденциальность.

Open-source · бесплатно

OpenRouter

Агрегатор LLM. Один API-ключ даёт доступ к GPT, Claude, Gemini, Mistral и десяткам других моделей. Выбираете нужную модель для генерации ответа.

от $0.001 за запрос

Supabase

Облачный вариант PostgreSQL + pgvector с удобным интерфейсом. Подходит, если не хочется настраивать базу с нуля. Бесплатный tier достаточен для старта.

Бесплатный tier · cloud

LangChain / LlamaIndex

Python-фреймворки для построения RAG-пайплайнов в коде. Больше гибкости, больше кода. Подходят для сложных сценариев с несколькими источниками данных.

Open-source · требует Python

Три пути запустить RAG-бота

Выбирайте путь в зависимости от ваших задач и технического опыта.

No-code

Путь 1: n8n + Л.И.С.А.

Для тех, кто хочет запустить быстро и без программирования

  • Готовые шаблоны рабочих процессов
  • Визуальный редактор нод
  • Поддержка TXT, PDF, CSV
  • Подключение к Telegram-боту
  • Запуск за 1–2 дня
Стоимость: VPS ~500–1000 ₽/мес + API токены
Low-code

Путь 2: Botpress + RAG

Облачная платформа с встроенной поддержкой RAG и базы знаний

  • Загрузка документов в один клик
  • Визуальный конструктор диалогов
  • Поддержка любых LLM
  • 1M+ ботов уже используют
  • Запуск за несколько часов
Стоимость: от $0 (free tier) до $495/мес
Custom

Путь 3: LangChain + код

Полный контроль над архитектурой, сложные сценарии

  • Любые источники данных
  • Кастомный чанкинг и ранжирование
  • Интеграция с любыми системами
  • Мультиагентные архитектуры
  • Требует Python-разработчика
Стоимость: время разработчика + инфраструктура

С чего начать прямо сейчас

Если вы хотите попробовать RAG без технических знаний — смотрите видео выше. Там показан полный путь от установки до работающего бота. Шаблон рабочего процесса для n8n доступен через сборку Л.И.С.А.

Если хотите разобраться глубже в AI-агентах и монетизировать этот навык — в клубе PrideAI есть пошаговая база знаний с кейсами внедрения.

Часто задаваемые вопросы

RAG (Retrieval-Augmented Generation) — это технология, при которой ИИ сначала ищет нужную информацию в ваших документах, а потом формулирует ответ на её основе. Без RAG ИИ отвечает только из своей памяти (и может выдумывать). С RAG — опирается на конкретные данные из вашей базы знаний.

Обычный чат-бот работает только с тем, что вы написали в его скриптах или что знает базовая языковая модель. RAG-бот умеет самостоятельно искать ответ в загруженных документах: PDF, таблицах, базах данных. Он не галлюцинирует и всегда ссылается на конкретный источник.

Нет. Инструменты вроде n8n позволяют собрать RAG-бота визуально, без кода. Вы соединяете ноды: загрузка документа → векторизация → хранение в базе → поиск → ответ LLM. Для простых сценариев этого достаточно. Кастомные интеграции потребуют базовых знаний JavaScript.

Если использовать self-hosted стек (n8n + PostgreSQL + pgvector + Ollama для embeddings + OpenRouter для LLM) — расходы минимальны. VPS за 500–1000 ₽/мес плюс API-токены LLM (от $0.001 за запрос). Облачные решения (Pinecone, Weaviate Cloud) стартуют от $25/мес и выше.

Большинство RAG-систем работают с TXT, PDF, DOCX, MD, HTML. Таблицы (CSV, Excel) обрабатываются отдельно — через SQL-поиск, а не векторный. Видео и аудио сначала транскрибируются (Whisper), потом индексируются как текст. Изображения пока с трудом.

pgvector — расширение для PostgreSQL, которое добавляет поддержку векторного поиска. Вместо того чтобы покупать отдельную векторную базу (Pinecone, Weaviate), вы храните и ищете векторы прямо в знакомом Postgres. Экономит деньги и упрощает архитектуру.

Документы нарезаются на небольшие фрагменты (чанки) и преобразуются в числовые векторы. При запросе система находит только самые релевантные фрагменты через векторное сходство. Скорость практически не зависит от объёма базы — поиск работает как индекс, а не как перебор всего текста.

Источники

2 просмотров

Полезная статья?

Сохраните в закладки, чтобы не потерять

Ctrl + D