Anti-hallucination RAG · 2026

AI-ассистенты и RAG-системы без галлюцинаций — внедрение под ключ

Делаем AI-ботов, которым можно доверить юр.документы, регламенты и клиентскую поддержку. Каждый ответ — с цитатой источника, проверкой второго агента-критика и контролем через RAGAS-метрики в CI. Если ответа в базе нет — бот говорит «не знаю», а не выдумывает. Москва и вся Россия.

Critic-агентCitation в каждом ответе152-ФЗ / on-premise30 дней до пилота
≥ 0.95

Faithfulness по RAGAS на проде

100%

ответов с цитатой источника

2 LLM

основной + критик-агент

152-ФЗ

on-premise / российские LLM

Реальность рынка

Почему «просто прикрутить GPT» — это путь к шоку через 3 месяца

Чек-лист проблем, с которыми приходят к нам после неудачного внедрения у других подрядчиков. Мы видели каждую из них в живом проде.

Бот выдумывает условия договоров.

«Возврат за 30 дней» вместо 14. Юристы клиента в ужасе, поддержка тушит пожары.

Цитаты есть, но они фейковые.

LLM «придумывает» номер пункта или название документа. Никто не проверяет — выглядит правдоподобно.

На редкий вопрос — нет уверенного «не знаю».

Бот в любом случае что-то отвечает, даже когда ответа в базе нет.

Качество не отслеживается.

Нет метрик, нет дашборда, нет регрессии — модель «дрейфует», никто не замечает.

Один сбой OpenAI = бот лежит.

Нет fallback, нет роутера моделей, нет on-premise опции.

Подняли цены OpenAI — счёт ×3.

Нет контроля токенов, нет кэширования, нет дешёвой модели на простые запросы.

Архитектура надёжности

9 уровней защиты от галлюцинаций — на каждом этапе пайплайна

Мы не верим в «волшебную модель, которая не врёт». Мы строим многослойную защиту: на retrieval, на generation, на post-processing и на operations. Каждый слой поймaн и метрифицирован.

01

Подготовка корпуса

Чистим документы от дублей, противоречий и устаревших версий. Помечаем confidence у каждого источника (официальный регламент > письмо в Telegram). Без чистой базы — никакой RAG не спасёт.

dedup via MinHash + LSH, semantic chunking, parent-child indexing
02

Hybrid Search

Один dense-векторный поиск ловит синонимы, но мажет по точным терминам. BM25 — наоборот. Мы используем оба, объединяя через reciprocal rank fusion.

pgvector / Qdrant + BM25 (Tantivy/Lucene), RRF fusion, top-k=20
03

Reranking

После hybrid-search прогоняем кандидатов через cross-encoder реранкер. Режет шум и поднимает релевантный чанк на первое место — критично для LLM.

bge-reranker-v2 / Cohere Rerank 3, top-3 после rerank
04

Структурированные промпты

Жёсткие шаблоны: «Отвечай только на основе CONTEXT. Если нет ответа — скажи "не нашёл в базе". Каждое утверждение должно ссылаться на источник».

XML-теги в системном промпте, few-shot с правильными отказами
05

Принудительный citation

LLM возвращает ответ в JSON со списком citations. Если число цитат меньше числа утверждений — ответ отбраковывается.

structured output (Anthropic tools / OpenAI JSON mode), schema validation
06

Critic-агент

Второй агент-критик работает параллельно или после основного. Единственная задача — проверить ответ первого. Если не проходит — переписываем или эскалируем.

separate Claude/GPT instance, self-RAG / CRITIC pattern, 3-level severity
07

RAGAS-метрики в реальном времени

На каждом ответе считаем: Faithfulness, Answer Relevancy, Context Precision. Порог < 0.85 — алерт.

ragas==latest, async eval, Grafana dashboard, PagerDuty alerts
08

Eval в CI/CD

Перед каждым релизом прогоняем golden set из 200–500 вопросов. Регрессия по любой метрике → деплой блокируется.

DeepEval / LangSmith / Promptfoo, GitHub Actions matrix
09

Human-in-the-loop

Низкоуверенные ответы автоматически уходят оператору. Любое исправление оператора попадает в датасет для дообучения. Закрываем петлю.

confidence routing, Slack/Telegram approval flow, fine-tune on corrections
Подробнее об архитектуре, RAGAS-метриках и конкретных приёмах — «Как мы делаем RAG, которому можно доверить юр.документы» на Дзене →

Архитектура

Схема нашего RAG-пайплайна — без скрытых ящиков

Ingestion

Документы
Парсер (PDF/DOCX/HTML/Confluence/Notion)
Чанкинг (semantic + parent-child)
Embedding (bge-m3 / e5)
Vector DB (Qdrant / pgvector)
BM25 Index

Query

Запрос пользователя
Query Expansion (HyDE)
Hybrid Retriever (top-20)
Reranker (bge-reranker / Cohere)
Top-3 чанки

Generation

Top-3 + Структурированный промпт
LLM (Claude / GPT / GigaChat)
JSON ответ с citations
Schema validator

Critic & Quality

Critic-агент
RAGAS (Faithfulness/Relevancy/Precision)
Threshold check → Пользователь / Human escalation + Лог

Все 4 свимлейна метрифицированы. Grafana-дашборд доступен заказчику с первого дня.

Каждый компонент заменяем: можно поменять LLM, vector DB, реранкер без переписывания остального.

Логи 90 дней (дольше по NDA), PII-маскировка через Microsoft Presidio.

Двойной контроль

Critic-агент: второй AI смотрит за первым

Даже самая аккуратная RAG-система иногда промахивается: модель додумала формулировку, неправильно обобщила два чанка, перепутала числа. Поэтому мы запускаем второго агента-критика — у которого только одна работа: проверять ответ первого.

Чек-лист критика:

  • Каждое утверждение подтверждается хотя бы одним чанком? (faithfulness)
  • Ответ покрывает вопрос целиком, без ухода в сторону? (relevancy)
  • Числа, даты, имена совпадают с источниками побайтно? (numeric check)
  • Цитаты [doc_id:chunk_id] ведут на реально существующие чанки? (citation integrity)
  • Ответ не содержит запрещённых тем (PII, политика, выход за компетенцию)? (policy check)

Три варианта результата:

Soft failпросим основного агента переписать с подсказкой.
Hard failзаменяем ответ на «не нашёл уверенного ответа в базе, передаю оператору».
Critical failалерт в Slack + лог в датасет для пост-мортем.

👤 User

«Можно вернуть товар через месяц после покупки?»

🤖 Agent v1

«Да, возврат возможен в течение 30 дней... [doc:12]»

⚖ Critic — FAIL

В [doc:12] указано "14 дней", не 30. Faithfulness: 0.42

🤖 Agent v2 (retry)

«Возврат непродовольственных товаров — в течение 14 дней согласно п.3.2 [doc:12]. После — только при браке [doc:14, doc:7].»

⚖ Critic — PASS

Faithfulness: 0.97. Citation: 3/3. ✓ Pass → ответ пользователю

Измеримое качество

6 метрик, по которым вы видите здоровье ассистента 24/7

Faithfulness

Доля утверждений в ответе, подтверждённых контекстом

Цель: ≥ 0.95

Чиним промпт + добавляем critic

Answer Relevancy

Насколько ответ покрывает вопрос

Цель: ≥ 0.90

Дообучаем query expansion

Context Precision

Релевантные чанки в начале top-K

Цель: ≥ 0.85

Тюним реранкер, пересобираем индекс

Context Recall

Найдены ли все нужные документы

Цель: ≥ 0.80

Дополняем корпус, меняем чанкинг

Citation Integrity

Доля валидных ссылок в ответах

Цель: 100%

Жёсткий schema-validator на выходе

Refusal Rate

Корректные «не знаю» к общему числу

Цель: контроль

Балансируем threshold, смотрим FN/FP

Все метрики — в Grafana-дашборде, доступном заказчику. Алерты через Telegram/Slack/PagerDuty. История за 90 дней по умолчанию, дольше — под NDA.

Продукты

Что мы реально внедряем — кроме «чат-бота на сайте»

Клиентский AI-ассистент

Бот на сайте, в Telegram, MAX, WhatsApp. Отвечает по базе знаний компании, эскалирует сложное оператору. Снижает первую линию поддержки на 40–70%.

B2Ce-commerceSaaSFinTech

Внутренний ассистент для команды

«Спроси у бота» вместо «спроси Лену из HR» / «спроси юриста». Поиск по регламентам, договорам, базе знаний, истории тикетов.

HRюристыпродажиподдержка

Поиск по документам (RAG-Search)

Корпоративный «Google» — на ваших данных, с цитатами и ссылками на оригинал. Не диалог — а поисковая выдача с генеративным саммари.

консалтингкорп.библиотекиR&D

Проверка договоров и регламентов

Загружаешь договор → бот сверяет с шаблоном/чек-листом, помечает расхождения, генерирует комментарии для юриста.

legal-techзакупкиM&A

AI в колл-центре и саппорте

Подсказки оператору в реальном времени: «вот скрипт», «вот аналогичный кейс», «вот ссылка на регламент». Метрика — AHT и FCR.

контакт-центрыB2B-саппорт

Агенты для процессов

Не «диалог», а автономный агент: обрабатывает входящие заявки, заполняет CRM, эскалирует, отправляет уведомления. С human-in-the-loop на критичных шагах.

продажиоперациибэк-офис

Стек

Стек, на котором собираем RAG-системы в проде

LLM

  • ·Anthropic Claude (Sonnet 4.7 / Opus 4.7)
  • ·OpenRouter — единая точка к 100+ моделям, fallback
  • ·OpenAI GPT-4o / GPT-4.1
  • ·GigaChat Pro, YandexGPT 5 — для 152-ФЗ
  • ·Llama 3.3, Qwen 2.5, Mistral — для on-premise
  • ·Embeddings: text-embedding-3-large, bge-m3, e5-mistral

Vector DB и поиск

  • ·Qdrant (приоритет) — production, on-premise
  • ·pgvector — когда уже есть PostgreSQL
  • ·Pinecone, Weaviate — managed cloud
  • ·Elasticsearch / OpenSearch — BM25 hybrid
  • ·Tantivy — light BM25 на Rust

Frameworks и оркестрация

  • ·LangChain / LangGraph — multi-step агенты
  • ·LlamaIndex — retrieval-heavy сценарии
  • ·Haystack — production-grade RAG-пайплайны
  • ·Pydantic AI — типобезопасные LLM-вызовы
  • ·Instructor — structured outputs

Eval и observability

  • ·RAGAS — Faithfulness, Relevancy, Context-метрики
  • ·DeepEval — pytest-style тесты для LLM
  • ·LangSmith / Langfuse / Phoenix — трейсинг
  • ·Promptfoo — A/B-тесты промптов в CI
  • ·Helicone — мониторинг токенов и расходов

Backend и Infra

  • ·Python 3.12 (FastAPI) / Node.js 20 (Hono/Fastify)
  • ·Redis — кэш ответов, очереди, sessions
  • ·Celery / Temporal / BullMQ — фоновые задачи
  • ·Docker, Kubernetes, Helm — для on-premise
  • ·Yandex Cloud, VK Cloud, Selectel — РФ
  • ·Vault / Doppler — секреты и API-ключи

Процесс

От первой встречи до прода — 30 дней без сюрпризов

01

3–5 дней

Discovery и ROI

Бизнес-цель, метрики, объём, оценка эффекта, выбор сценария. Финансовая модель на выходе. Без подтверждённого ROI не идём дальше.

02

3–5 дней

Аудит данных

Что у вас есть: документы, форматы, актуальность, противоречия, дубли. Что нужно дочистить. План индексации.

03

5–7 дней

Прототип

Закрытый пилот на 50–100 вопросах, golden set, первые RAGAS-метрики. Демо в Zoom + доступ к sandbox-боту.

04

10–14 дней

MVP в проде

Интеграция в канал (сайт/Telegram/MAX), дашборд метрик, алерты, human-escalation, обучение операторов.

05

постоянно

Итерации и SLA

Еженедельный регресс на golden set, ретейнер на развитие, дообучение на правках операторов.

Безопасность

Защита данных и compliance — обсуждаемо до старта

Защита данных

  • PII-маскировка перед отправкой в LLM (Presidio / regex-фильтры)
  • Чёрные списки тем (политика, медицина, юр.советы вне компетенции)
  • Rate limiting по пользователю / IP / API-ключу
  • Защита от prompt injection (input sanitization, instruction hierarchy)
  • Шифрование на rest (AES-256) и in-transit (TLS 1.3)
  • Audit log всех запросов и ответов 90+ дней
  • Возможность полного «забывания» данных пользователя (GDPR-style)

Соответствие

  • 152-ФЗ — размещение и обработка ПДн на территории РФ
  • Российские LLM (GigaChat, YandexGPT) для критичных кейсов
  • Self-hosted Llama / Qwen / Mistral на закрытом контуре
  • Размещение в Yandex Cloud / VK Cloud / Selectel
  • Договор обработки ПДн с поручением
  • NDA на этапе предпродажи
  • Готовность к ИБ-аудиту со стороны заказчика

Для финтеха, медицины и госсектора — отдельный регламент работы. Доступны on-premise варианты и air-gapped инсталляции.

Тарифы

Прозрачные пакеты — от пилота до production

Пилот

от 250 000 ₽

  • 2–3 недели
  • 1 сценарий, golden set до 100 вопросов
  • Базовая RAG-система с citation
  • Метрики Faithfulness/Relevancy
  • Sandbox-демо, без прода
Заказать
Рекомендуемый

Production RAG

от 600 000 ₽

  • 4 недели (30 дней)
  • 1–2 сценария, golden set до 500 вопросов
  • Critic-агент + все 9 уровней защиты
  • Grafana-дашборд метрик и алерты
  • Интеграция в канал (сайт/Telegram/MAX/CRM)
  • CI с автотестами на регрессию
  • 3 месяца поддержки
Заказать

Enterprise / On-premise

от 1 200 000 ₽

  • 6–10 недель
  • Несколько процессов / отделов
  • On-premise / private cloud / air-gapped
  • 152-ФЗ, self-hosted модели
  • SLA 99.9%, dedicated PM
  • Передача документации и обучение команды
Заказать
Сложный AI-агент / интеграция с ERP / финтех — обсуждается индивидуально. Расчёт ROI — бесплатно. NDA по запросу.

Кейсы

Реальные внедрения — без анонимных «у клиента N»

Под NDA внедряли RAG и AI-ассистентов для юр.компании, финтеха, e-commerce и B2B-SaaS. Усреднённые результаты на проде:

↓ 47%

время на типовой запрос в саппорте

↑ 2.3×

скорость первой линии

0.96

медианный Faithfulness на golden set

3.1 мес

медианная окупаемость

FAQ

Частые вопросы об AI-ассистентах и RAG

Гарантируете ли вы, что AI-ассистент не будет галлюцинировать?

100% гарантию даёт только справочник — но он не диалоговый. Мы гарантируем рабочий порог Faithfulness ≥ 0.95 на вашем golden set и корректный отказ «не знаю» вместо выдумки. Это контрактные обязательства, фиксируются в SLA.

Что такое critic-агент?

Это второй LLM, у которого единственная задача — проверять ответ первого по чек-листу: подтверждается ли каждое утверждение источниками, корректны ли цитаты, не вышел ли ответ за политику. Подробнее: https://dzen.ru/a/aeoB3_Pj-gsSC-Hx

Что значит «citation в каждом ответе»?

В каждом ответе бот возвращает структурированный JSON: текст ответа + массив цитат [{doc_id, chunk_id, quote}]. На фронте — кликабельные ссылки на исходные документы. Если в ответе нет цитаты — он не уходит пользователю.

Какие модели вы используете?

В первую очередь Anthropic Claude (Sonnet/Opus) — для качества reasoning. Через OpenRouter — fallback и роутинг. OpenAI GPT-4o, Google Gemini — по задаче. Для 152-ФЗ — GigaChat Pro и YandexGPT 5. Для on-premise — Llama 3.3, Qwen 2.5, Mistral.

Можно ли развернуть всё в нашем закрытом контуре?

Да. У нас есть on-premise и air-gapped инсталляции. Стек на self-hosted моделях, Qdrant локально, pgvector в вашем PostgreSQL. Никаких внешних API. Под этот режим — пакет Enterprise.

А с 152-ФЗ как?

Размещение в Yandex Cloud / VK Cloud / Selectel или у вас. Российские LLM или self-hosted. Договор обработки ПДн с поручением. PII-маскировка перед любой отправкой данных в модель.

Сколько стоит обработка одного запроса?

Зависит от модели, длины контекста и кэширования. На среднем кейсе с Claude Sonnet + Qdrant + 3 чанками — 0.5–2 ₽ за ответ при кэше. Считаем на этапе ROI до старта проекта.

Как считаете ROI до старта?

Объём запросов в месяц × среднее время на запрос у оператора × стоимость часа − стоимость работы бота − затраты на поддержку. Сравниваем с целевым горизонтом (обычно 6–12 мес). Без подтверждённого ROI проект не запускаем.

Что если бот всё-таки выдаст что-то некорректное?

Три уровня защиты: (1) critic-агент отлавливает большинство, (2) при низком confidence — эскалация на оператора, (3) каждая исправленная оператором ситуация попадает в датасет регрессии и в постоянный мониторинг.

Сколько времени до пилота? До прода?

Пилот в sandbox — 2–3 недели. Production RAG с интеграцией — 4 недели (30 дней). Enterprise / on-premise — 6–10 недель.

Какие данные нужны от нас для старта?

Документы (PDF, DOCX, HTML, Confluence, Notion, Google Docs). История тикетов поддержки — сильно помогает. Список «нельзя» (запрещённые темы, ограничения). Контакт юриста и безопасника на нашей стороне для согласования.

Можно ли подключить к 1С / Битрикс24 / amoCRM?

Да. Бот может читать данные из CRM (статус заказа), создавать тикеты, обновлять контакты. Под это пишем отдельные tool-функции для агента. Используем REST API систем.

Поддержка после запуска?

3 месяца в пакете Production включены: мониторинг метрик, исправление регрессий, помощь команде заказчика. Дальше — ретейнер или почасовая. SLA по запросу.

Как вы отчитываетесь?

Еженедельная встреча на 30 минут + доступ к Grafana-дашборду 24/7 + общий канал в Telegram/Slack. По ключевым метрикам — отчёт раз в месяц с разбором фейлов и планом улучшений.

Что если мы захотим уйти к другому подрядчику?

Передаём весь код, индексы, промпты, тесты, документацию. Stack — open source, не на наших проприетарных решениях. Vendor lock-in отсутствует.

Готовы протестировать AI-ассистента на ваших данных?

Бесплатная 30-минутная сессия: разберём задачу, оценим объём, посчитаем ROI, покажем демо на похожем кейсе. NDA по запросу. Москва и вся Россия.

Или позвоните: +7 995 095 55 93 · ИНН 9707055804 · Резидент Сколково