AI-ассистенты и RAG-системы без галлюцинаций — внедрение под ключ
Делаем AI-ботов, которым можно доверить юр.документы, регламенты и клиентскую поддержку. Каждый ответ — с цитатой источника, проверкой второго агента-критика и контролем через RAGAS-метрики в CI. Если ответа в базе нет — бот говорит «не знаю», а не выдумывает. Москва и вся Россия.
Faithfulness по RAGAS на проде
ответов с цитатой источника
основной + критик-агент
on-premise / российские LLM
Реальность рынка
Почему «просто прикрутить GPT» — это путь к шоку через 3 месяца
Чек-лист проблем, с которыми приходят к нам после неудачного внедрения у других подрядчиков. Мы видели каждую из них в живом проде.
Бот выдумывает условия договоров.
«Возврат за 30 дней» вместо 14. Юристы клиента в ужасе, поддержка тушит пожары.
Цитаты есть, но они фейковые.
LLM «придумывает» номер пункта или название документа. Никто не проверяет — выглядит правдоподобно.
На редкий вопрос — нет уверенного «не знаю».
Бот в любом случае что-то отвечает, даже когда ответа в базе нет.
Качество не отслеживается.
Нет метрик, нет дашборда, нет регрессии — модель «дрейфует», никто не замечает.
Один сбой OpenAI = бот лежит.
Нет fallback, нет роутера моделей, нет on-premise опции.
Подняли цены OpenAI — счёт ×3.
Нет контроля токенов, нет кэширования, нет дешёвой модели на простые запросы.
Архитектура надёжности
9 уровней защиты от галлюцинаций — на каждом этапе пайплайна
Мы не верим в «волшебную модель, которая не врёт». Мы строим многослойную защиту: на retrieval, на generation, на post-processing и на operations. Каждый слой поймaн и метрифицирован.
Подготовка корпуса
Чистим документы от дублей, противоречий и устаревших версий. Помечаем confidence у каждого источника (официальный регламент > письмо в Telegram). Без чистой базы — никакой RAG не спасёт.
dedup via MinHash + LSH, semantic chunking, parent-child indexingHybrid Search
Один dense-векторный поиск ловит синонимы, но мажет по точным терминам. BM25 — наоборот. Мы используем оба, объединяя через reciprocal rank fusion.
pgvector / Qdrant + BM25 (Tantivy/Lucene), RRF fusion, top-k=20Reranking
После hybrid-search прогоняем кандидатов через cross-encoder реранкер. Режет шум и поднимает релевантный чанк на первое место — критично для LLM.
bge-reranker-v2 / Cohere Rerank 3, top-3 после rerankСтруктурированные промпты
Жёсткие шаблоны: «Отвечай только на основе CONTEXT. Если нет ответа — скажи "не нашёл в базе". Каждое утверждение должно ссылаться на источник».
XML-теги в системном промпте, few-shot с правильными отказамиПринудительный citation
LLM возвращает ответ в JSON со списком citations. Если число цитат меньше числа утверждений — ответ отбраковывается.
structured output (Anthropic tools / OpenAI JSON mode), schema validationCritic-агент
Второй агент-критик работает параллельно или после основного. Единственная задача — проверить ответ первого. Если не проходит — переписываем или эскалируем.
separate Claude/GPT instance, self-RAG / CRITIC pattern, 3-level severityRAGAS-метрики в реальном времени
На каждом ответе считаем: Faithfulness, Answer Relevancy, Context Precision. Порог < 0.85 — алерт.
ragas==latest, async eval, Grafana dashboard, PagerDuty alertsEval в CI/CD
Перед каждым релизом прогоняем golden set из 200–500 вопросов. Регрессия по любой метрике → деплой блокируется.
DeepEval / LangSmith / Promptfoo, GitHub Actions matrixHuman-in-the-loop
Низкоуверенные ответы автоматически уходят оператору. Любое исправление оператора попадает в датасет для дообучения. Закрываем петлю.
confidence routing, Slack/Telegram approval flow, fine-tune on correctionsАрхитектура
Схема нашего RAG-пайплайна — без скрытых ящиков
Ingestion
Query
Generation
Critic & Quality
Все 4 свимлейна метрифицированы. Grafana-дашборд доступен заказчику с первого дня.
Каждый компонент заменяем: можно поменять LLM, vector DB, реранкер без переписывания остального.
Логи 90 дней (дольше по NDA), PII-маскировка через Microsoft Presidio.
Двойной контроль
Critic-агент: второй AI смотрит за первым
Даже самая аккуратная RAG-система иногда промахивается: модель додумала формулировку, неправильно обобщила два чанка, перепутала числа. Поэтому мы запускаем второго агента-критика — у которого только одна работа: проверять ответ первого.
Чек-лист критика:
- Каждое утверждение подтверждается хотя бы одним чанком? (faithfulness)
- Ответ покрывает вопрос целиком, без ухода в сторону? (relevancy)
- Числа, даты, имена совпадают с источниками побайтно? (numeric check)
- Цитаты [doc_id:chunk_id] ведут на реально существующие чанки? (citation integrity)
- Ответ не содержит запрещённых тем (PII, политика, выход за компетенцию)? (policy check)
Три варианта результата:
👤 User
«Можно вернуть товар через месяц после покупки?»
🤖 Agent v1
«Да, возврат возможен в течение 30 дней... [doc:12]»
⚖ Critic — FAIL
В [doc:12] указано "14 дней", не 30. Faithfulness: 0.42
🤖 Agent v2 (retry)
«Возврат непродовольственных товаров — в течение 14 дней согласно п.3.2 [doc:12]. После — только при браке [doc:14, doc:7].»
⚖ Critic — PASS
Faithfulness: 0.97. Citation: 3/3. ✓ Pass → ответ пользователю
Измеримое качество
6 метрик, по которым вы видите здоровье ассистента 24/7
Faithfulness
Доля утверждений в ответе, подтверждённых контекстом
Цель: ≥ 0.95Чиним промпт + добавляем critic
Answer Relevancy
Насколько ответ покрывает вопрос
Цель: ≥ 0.90Дообучаем query expansion
Context Precision
Релевантные чанки в начале top-K
Цель: ≥ 0.85Тюним реранкер, пересобираем индекс
Context Recall
Найдены ли все нужные документы
Цель: ≥ 0.80Дополняем корпус, меняем чанкинг
Citation Integrity
Доля валидных ссылок в ответах
Цель: 100%Жёсткий schema-validator на выходе
Refusal Rate
Корректные «не знаю» к общему числу
Цель: контрольБалансируем threshold, смотрим FN/FP
Продукты
Что мы реально внедряем — кроме «чат-бота на сайте»
Клиентский AI-ассистент
Бот на сайте, в Telegram, MAX, WhatsApp. Отвечает по базе знаний компании, эскалирует сложное оператору. Снижает первую линию поддержки на 40–70%.
Внутренний ассистент для команды
«Спроси у бота» вместо «спроси Лену из HR» / «спроси юриста». Поиск по регламентам, договорам, базе знаний, истории тикетов.
Поиск по документам (RAG-Search)
Корпоративный «Google» — на ваших данных, с цитатами и ссылками на оригинал. Не диалог — а поисковая выдача с генеративным саммари.
Проверка договоров и регламентов
Загружаешь договор → бот сверяет с шаблоном/чек-листом, помечает расхождения, генерирует комментарии для юриста.
AI в колл-центре и саппорте
Подсказки оператору в реальном времени: «вот скрипт», «вот аналогичный кейс», «вот ссылка на регламент». Метрика — AHT и FCR.
Агенты для процессов
Не «диалог», а автономный агент: обрабатывает входящие заявки, заполняет CRM, эскалирует, отправляет уведомления. С human-in-the-loop на критичных шагах.
Стек
Стек, на котором собираем RAG-системы в проде
LLM
- ·Anthropic Claude (Sonnet 4.7 / Opus 4.7)
- ·OpenRouter — единая точка к 100+ моделям, fallback
- ·OpenAI GPT-4o / GPT-4.1
- ·GigaChat Pro, YandexGPT 5 — для 152-ФЗ
- ·Llama 3.3, Qwen 2.5, Mistral — для on-premise
- ·Embeddings: text-embedding-3-large, bge-m3, e5-mistral
Vector DB и поиск
- ·Qdrant (приоритет) — production, on-premise
- ·pgvector — когда уже есть PostgreSQL
- ·Pinecone, Weaviate — managed cloud
- ·Elasticsearch / OpenSearch — BM25 hybrid
- ·Tantivy — light BM25 на Rust
Frameworks и оркестрация
- ·LangChain / LangGraph — multi-step агенты
- ·LlamaIndex — retrieval-heavy сценарии
- ·Haystack — production-grade RAG-пайплайны
- ·Pydantic AI — типобезопасные LLM-вызовы
- ·Instructor — structured outputs
Eval и observability
- ·RAGAS — Faithfulness, Relevancy, Context-метрики
- ·DeepEval — pytest-style тесты для LLM
- ·LangSmith / Langfuse / Phoenix — трейсинг
- ·Promptfoo — A/B-тесты промптов в CI
- ·Helicone — мониторинг токенов и расходов
Backend и Infra
- ·Python 3.12 (FastAPI) / Node.js 20 (Hono/Fastify)
- ·Redis — кэш ответов, очереди, sessions
- ·Celery / Temporal / BullMQ — фоновые задачи
- ·Docker, Kubernetes, Helm — для on-premise
- ·Yandex Cloud, VK Cloud, Selectel — РФ
- ·Vault / Doppler — секреты и API-ключи
Процесс
От первой встречи до прода — 30 дней без сюрпризов
3–5 дней
Discovery и ROI
Бизнес-цель, метрики, объём, оценка эффекта, выбор сценария. Финансовая модель на выходе. Без подтверждённого ROI не идём дальше.
3–5 дней
Аудит данных
Что у вас есть: документы, форматы, актуальность, противоречия, дубли. Что нужно дочистить. План индексации.
5–7 дней
Прототип
Закрытый пилот на 50–100 вопросах, golden set, первые RAGAS-метрики. Демо в Zoom + доступ к sandbox-боту.
10–14 дней
MVP в проде
Интеграция в канал (сайт/Telegram/MAX), дашборд метрик, алерты, human-escalation, обучение операторов.
постоянно
Итерации и SLA
Еженедельный регресс на golden set, ретейнер на развитие, дообучение на правках операторов.
Безопасность
Защита данных и compliance — обсуждаемо до старта
Защита данных
- PII-маскировка перед отправкой в LLM (Presidio / regex-фильтры)
- Чёрные списки тем (политика, медицина, юр.советы вне компетенции)
- Rate limiting по пользователю / IP / API-ключу
- Защита от prompt injection (input sanitization, instruction hierarchy)
- Шифрование на rest (AES-256) и in-transit (TLS 1.3)
- Audit log всех запросов и ответов 90+ дней
- Возможность полного «забывания» данных пользователя (GDPR-style)
Соответствие
- 152-ФЗ — размещение и обработка ПДн на территории РФ
- Российские LLM (GigaChat, YandexGPT) для критичных кейсов
- Self-hosted Llama / Qwen / Mistral на закрытом контуре
- Размещение в Yandex Cloud / VK Cloud / Selectel
- Договор обработки ПДн с поручением
- NDA на этапе предпродажи
- Готовность к ИБ-аудиту со стороны заказчика
Для финтеха, медицины и госсектора — отдельный регламент работы. Доступны on-premise варианты и air-gapped инсталляции.
Тарифы
Прозрачные пакеты — от пилота до production
Пилот
от 250 000 ₽
- 2–3 недели
- 1 сценарий, golden set до 100 вопросов
- Базовая RAG-система с citation
- Метрики Faithfulness/Relevancy
- Sandbox-демо, без прода
Production RAG
от 600 000 ₽
- 4 недели (30 дней)
- 1–2 сценария, golden set до 500 вопросов
- Critic-агент + все 9 уровней защиты
- Grafana-дашборд метрик и алерты
- Интеграция в канал (сайт/Telegram/MAX/CRM)
- CI с автотестами на регрессию
- 3 месяца поддержки
Enterprise / On-premise
от 1 200 000 ₽
- 6–10 недель
- Несколько процессов / отделов
- On-premise / private cloud / air-gapped
- 152-ФЗ, self-hosted модели
- SLA 99.9%, dedicated PM
- Передача документации и обучение команды
Кейсы
Реальные внедрения — без анонимных «у клиента N»
Под NDA внедряли RAG и AI-ассистентов для юр.компании, финтеха, e-commerce и B2B-SaaS. Усреднённые результаты на проде:
время на типовой запрос в саппорте
скорость первой линии
медианный Faithfulness на golden set
медианная окупаемость
FAQ
Частые вопросы об AI-ассистентах и RAG
Гарантируете ли вы, что AI-ассистент не будет галлюцинировать?
100% гарантию даёт только справочник — но он не диалоговый. Мы гарантируем рабочий порог Faithfulness ≥ 0.95 на вашем golden set и корректный отказ «не знаю» вместо выдумки. Это контрактные обязательства, фиксируются в SLA.
Что такое critic-агент?
Это второй LLM, у которого единственная задача — проверять ответ первого по чек-листу: подтверждается ли каждое утверждение источниками, корректны ли цитаты, не вышел ли ответ за политику. Подробнее: https://dzen.ru/a/aeoB3_Pj-gsSC-Hx
Что значит «citation в каждом ответе»?
В каждом ответе бот возвращает структурированный JSON: текст ответа + массив цитат [{doc_id, chunk_id, quote}]. На фронте — кликабельные ссылки на исходные документы. Если в ответе нет цитаты — он не уходит пользователю.
Какие модели вы используете?
В первую очередь Anthropic Claude (Sonnet/Opus) — для качества reasoning. Через OpenRouter — fallback и роутинг. OpenAI GPT-4o, Google Gemini — по задаче. Для 152-ФЗ — GigaChat Pro и YandexGPT 5. Для on-premise — Llama 3.3, Qwen 2.5, Mistral.
Можно ли развернуть всё в нашем закрытом контуре?
Да. У нас есть on-premise и air-gapped инсталляции. Стек на self-hosted моделях, Qdrant локально, pgvector в вашем PostgreSQL. Никаких внешних API. Под этот режим — пакет Enterprise.
А с 152-ФЗ как?
Размещение в Yandex Cloud / VK Cloud / Selectel или у вас. Российские LLM или self-hosted. Договор обработки ПДн с поручением. PII-маскировка перед любой отправкой данных в модель.
Сколько стоит обработка одного запроса?
Зависит от модели, длины контекста и кэширования. На среднем кейсе с Claude Sonnet + Qdrant + 3 чанками — 0.5–2 ₽ за ответ при кэше. Считаем на этапе ROI до старта проекта.
Как считаете ROI до старта?
Объём запросов в месяц × среднее время на запрос у оператора × стоимость часа − стоимость работы бота − затраты на поддержку. Сравниваем с целевым горизонтом (обычно 6–12 мес). Без подтверждённого ROI проект не запускаем.
Что если бот всё-таки выдаст что-то некорректное?
Три уровня защиты: (1) critic-агент отлавливает большинство, (2) при низком confidence — эскалация на оператора, (3) каждая исправленная оператором ситуация попадает в датасет регрессии и в постоянный мониторинг.
Сколько времени до пилота? До прода?
Пилот в sandbox — 2–3 недели. Production RAG с интеграцией — 4 недели (30 дней). Enterprise / on-premise — 6–10 недель.
Какие данные нужны от нас для старта?
Документы (PDF, DOCX, HTML, Confluence, Notion, Google Docs). История тикетов поддержки — сильно помогает. Список «нельзя» (запрещённые темы, ограничения). Контакт юриста и безопасника на нашей стороне для согласования.
Можно ли подключить к 1С / Битрикс24 / amoCRM?
Да. Бот может читать данные из CRM (статус заказа), создавать тикеты, обновлять контакты. Под это пишем отдельные tool-функции для агента. Используем REST API систем.
Поддержка после запуска?
3 месяца в пакете Production включены: мониторинг метрик, исправление регрессий, помощь команде заказчика. Дальше — ретейнер или почасовая. SLA по запросу.
Как вы отчитываетесь?
Еженедельная встреча на 30 минут + доступ к Grafana-дашборду 24/7 + общий канал в Telegram/Slack. По ключевым метрикам — отчёт раз в месяц с разбором фейлов и планом улучшений.
Что если мы захотим уйти к другому подрядчику?
Передаём весь код, индексы, промпты, тесты, документацию. Stack — open source, не на наших проприетарных решениях. Vendor lock-in отсутствует.
Готовы протестировать AI-ассистента на ваших данных?
Бесплатная 30-минутная сессия: разберём задачу, оценим объём, посчитаем ROI, покажем демо на похожем кейсе. NDA по запросу. Москва и вся Россия.
Или позвоните: +7 995 095 55 93 · ИНН 9707055804 · Резидент Сколково


