Публикация была переведена автоматически. Исходный язык: Русский
Почему 80% корпоративных RAG-проектов проваливаются — и как мы добились точности в 95%
На Reddit-сообществе r/LocalLLaMA — крупнейшем форуме для инженеров, работающих с локальными LLM - каждую неделю появляются десятки постов с одним и тем же сюжетом: компания инвестирует месяцы в RAG-систему, а на выходе получает «уверенно врущего» бота. Один из разработчиков описал ситуацию так: «Наш AI-ассистент утверждал, что мы предоставляем поддержку 24/7, хотя в документации чётко сказано — с 9 до 18. Самые страшные галлюцинации — те, что звучат правдоподобно».
DEV Community
По данным kapa.ai, которые проанализировали опыт более 100 технических команд, ZenMLKapa ключевая ошибка одна: компании сваливают в RAG всю базу знаний — от переписок в Slack до тикетов за десять лет — в надежде, что «больше данных = лучше результат». На практике это убивает релевантность поиска и повышает процент галлюцинаций до 30% и выше.
Мы в WIZICO столкнулись с этой проблемой на проекте для логистической компании в Центральной Азии. Клиент хотел создать внутреннего AI-ассистента для отдела продаж — бота, который отвечает на вопросы по тарифам, условиям доставки и внутренним регламентам. Первая итерация дала катастрофический результат: бот «выдумывал» скидки, путал маршруты и ссылался на устаревшие документы.
Вот что мы сделали, чтобы это исправить.
Шаг 1: Аудит и курация данных. Вместо того чтобы загружать всё подряд, мы выделили 47 ключевых документов — актуальные тарифные сетки, условия договоров, FAQ клиентского отдела. Каждый документ получил метаданные: дату обновления, категорию и уровень доступа. Объём базы сократился на 85%, а релевантность поиска выросла вдвое
Шаг 2: Гибридный поиск вместо чистого векторного. Чистый семантический поиск на эмбеддингах плохо справляется с точными значениями — номерами договоров, конкретными суммами, аббревиатурами. Мы внедрили гибридную схему: BM25 для ключевых слов + векторный поиск через Weaviate + реранкер на базе cross-encoder модели, именно этот подход даёт «двузначный прирост релевантности» (double-digit gains in relevance)
Шаг 3: Семантическое чанкование. Наивная нарезка текста по 500 токенов рвала таблицы, разделяла связанные условия и теряла контекст. Мы перешли на семантическое чанкование, которое разбивает текст по смысловым блокам — с учётом заголовков, таблиц и списков. Оптимальный размер чанков для нашей задачи составил 300–600 токенов.
Шаг 4: Промпт-инжиниринг с жёстким заземлением. Системный промпт содержал прямую инструкцию: «Отвечай ТОЛЬКО на основе предоставленного контекста. Если информации недостаточно — скажи "Я не нашёл точного ответа в базе знаний, рекомендую обратиться к менеджеру"». Мы установили temperature=0 для максимальной детерминированности ответов
Шаг 5: Автоматическая оценка качества. Мы внедрили RAGAS-фреймворк для непрерывного мониторинга четырёх метрик: faithfulness (верность контексту), answer relevancy (релевантность ответа), context precision и context recall. MediumLabel Your Data Порог faithfulness — 0.85, при падении ниже система автоматически переключает ответ на fallback-шаблон
Результат через 6 недель: уровень галлюцинаций упал с 32% до 4.7%. Время ответа на типовой запрос сотрудника отдела продаж сократилось с 15 минут (ручной поиск в документах) до 8 секунд. Удовлетворённость внутренних пользователей выросла до 91%
Стек: Go-бэкенд для API-оркестрации, qdrant в качестве векторной базы, GPT-4o-mini для генерации, BM25 через Elasticsearch, RAGAS для eval-pipeline, Next.js-интерфейс для чата
Главный урок: RAG — это не про модель, а про данные и ретривал. Настройка одного только retrieval-слоя может улучшить точность ответов на 50% даже без замены базовой модели. Если вы планируете внедрение AI-ассистента в вашу компанию — начните не с выбора LLM, а с аудита и структурирования вашей базы знаний.
В WIZICO мы помогаем компаниям Казахстана и СНГ внедрять RAG-системы, которые реально работают в продакшене. Напишите нам — расскажем, как это может выглядеть для вашего бизнеса.
Фото: Nano Banana
Почему 80% корпоративных RAG-проектов проваливаются — и как мы добились точности в 95%
На Reddit-сообществе r/LocalLLaMA — крупнейшем форуме для инженеров, работающих с локальными LLM - каждую неделю появляются десятки постов с одним и тем же сюжетом: компания инвестирует месяцы в RAG-систему, а на выходе получает «уверенно врущего» бота. Один из разработчиков описал ситуацию так: «Наш AI-ассистент утверждал, что мы предоставляем поддержку 24/7, хотя в документации чётко сказано — с 9 до 18. Самые страшные галлюцинации — те, что звучат правдоподобно».
DEV Community
По данным kapa.ai, которые проанализировали опыт более 100 технических команд, ZenMLKapa ключевая ошибка одна: компании сваливают в RAG всю базу знаний — от переписок в Slack до тикетов за десять лет — в надежде, что «больше данных = лучше результат». На практике это убивает релевантность поиска и повышает процент галлюцинаций до 30% и выше.
Мы в WIZICO столкнулись с этой проблемой на проекте для логистической компании в Центральной Азии. Клиент хотел создать внутреннего AI-ассистента для отдела продаж — бота, который отвечает на вопросы по тарифам, условиям доставки и внутренним регламентам. Первая итерация дала катастрофический результат: бот «выдумывал» скидки, путал маршруты и ссылался на устаревшие документы.
Вот что мы сделали, чтобы это исправить.
Шаг 1: Аудит и курация данных. Вместо того чтобы загружать всё подряд, мы выделили 47 ключевых документов — актуальные тарифные сетки, условия договоров, FAQ клиентского отдела. Каждый документ получил метаданные: дату обновления, категорию и уровень доступа. Объём базы сократился на 85%, а релевантность поиска выросла вдвое
Шаг 2: Гибридный поиск вместо чистого векторного. Чистый семантический поиск на эмбеддингах плохо справляется с точными значениями — номерами договоров, конкретными суммами, аббревиатурами. Мы внедрили гибридную схему: BM25 для ключевых слов + векторный поиск через Weaviate + реранкер на базе cross-encoder модели, именно этот подход даёт «двузначный прирост релевантности» (double-digit gains in relevance)
Шаг 3: Семантическое чанкование. Наивная нарезка текста по 500 токенов рвала таблицы, разделяла связанные условия и теряла контекст. Мы перешли на семантическое чанкование, которое разбивает текст по смысловым блокам — с учётом заголовков, таблиц и списков. Оптимальный размер чанков для нашей задачи составил 300–600 токенов.
Шаг 4: Промпт-инжиниринг с жёстким заземлением. Системный промпт содержал прямую инструкцию: «Отвечай ТОЛЬКО на основе предоставленного контекста. Если информации недостаточно — скажи "Я не нашёл точного ответа в базе знаний, рекомендую обратиться к менеджеру"». Мы установили temperature=0 для максимальной детерминированности ответов
Шаг 5: Автоматическая оценка качества. Мы внедрили RAGAS-фреймворк для непрерывного мониторинга четырёх метрик: faithfulness (верность контексту), answer relevancy (релевантность ответа), context precision и context recall. MediumLabel Your Data Порог faithfulness — 0.85, при падении ниже система автоматически переключает ответ на fallback-шаблон
Результат через 6 недель: уровень галлюцинаций упал с 32% до 4.7%. Время ответа на типовой запрос сотрудника отдела продаж сократилось с 15 минут (ручной поиск в документах) до 8 секунд. Удовлетворённость внутренних пользователей выросла до 91%
Стек: Go-бэкенд для API-оркестрации, qdrant в качестве векторной базы, GPT-4o-mini для генерации, BM25 через Elasticsearch, RAGAS для eval-pipeline, Next.js-интерфейс для чата
Главный урок: RAG — это не про модель, а про данные и ретривал. Настройка одного только retrieval-слоя может улучшить точность ответов на 50% даже без замены базовой модели. Если вы планируете внедрение AI-ассистента в вашу компанию — начните не с выбора LLM, а с аудита и структурирования вашей базы знаний.
В WIZICO мы помогаем компаниям Казахстана и СНГ внедрять RAG-системы, которые реально работают в продакшене. Напишите нам — расскажем, как это может выглядеть для вашего бизнеса.
Фото: Nano Banana