RAG-система для технической документации

Современные компании накапливают тысячи страниц технической документации: справочники, нормативные документы, регламенты, паспорта изделий, методические материалы. Найти в них нужный фрагмент — задача на часы. А получить готовый ответ на вопрос «как настроить вот это» или «какие требования по этому ГОСТу» — практически невозможно без эксперта-человека.

Мы построили решение этой проблемы — RAG-систему, которая отвечает на технические вопросы по вашим документам с обязательной ссылкой на источник. Система работает локально, на ваших серверах, без отправки данных в облако. В этой статье — как она устроена, что показала на пилоте по электронной документации, и где её можно применять.

Что такое RAG-система

RAG (Retrieval-Augmented Generation, «поиск с генерацией ответа») — это технология, которая соединяет два компонента: быстрый поиск по документам и языковую модель, формулирующую ответ.

Когда вы задаёте вопрос, система:

Находит в вашей базе документов несколько фрагментов, наиболее релевантных вопросу.
Передаёт эти фрагменты языковой модели как контекст.
Модель формулирует развёрнутый ответ, опираясь именно на эти фрагменты, и обязательно указывает, из какого документа и раздела взяла информацию.

В результате ответ — не общие фразы из интернета, а конкретные факты из вашей документации, которые можно проверить по ссылке. Если в документах ответа нет — система прямо об этом говорит, а не придумывает.

Зачем такая система нужна

Главная проблема технической документации — она огромна и неудобна для поиска.

Инженер по электронике, чтобы ответить на вопрос про работу периферии STM32, открывает PDF на 1700 страниц, ищет нужный раздел, читает несколько страниц, переключается между документами. Это занимает 15–30 минут на один вопрос. А таких вопросов в работе — десятки в день.

Специалист по сварке, чтобы найти параметры режима для конкретного материала, листает ГОСТы, технологические карты, паспорта электродов. Та же история — много времени уходит на поиск, а не на принятие решения.

Юрист в строительной компании, чтобы свериться с нормативами по конкретному пункту проектирования, перебирает СНиПы и СП. Время, которое можно потратить продуктивнее.

RAG-система решает все эти задачи единым способом: задал вопрос — получил ответ за 5–10 секунд, с указанием конкретного документа и раздела. Хочешь проверить — открываешь документ по ссылке и читаешь оригинал.

Пример работы

Покажем, как это выглядит на пилоте по технической документации электроники. В базе системы — 158 PDF-документов от ведущих производителей: STMicroelectronics, Microchip, Texas Instruments, плюс отраслевые учебники и статьи.

Вопрос: «Какие источники тактирования есть в микроконтроллере STM32F4 и какой максимальный HSE?»

Ответ системы: В STM32F4 предусмотрены следующие источники тактирования: HSE — внешний высокочастотный генератор с максимальной частотой 26 МГц [RM0090, раздел 7.2.3]; HSI — внутренний RC-генератор на 16 МГц [RM0090, раздел 7.2.2]; LSE — низкочастотный кварц 32.768 кГц для часов реального времени; LSI — внутренний низкочастотный RC-генератор около 32 кГц. Также имеется блок PLL для умножения частоты. Максимальная частота HSE на семействе F4 составляет 26 МГц [RM0090, таблица 23].

Вопрос: «Какой ток выставить для сварки нержавейки толщиной 4 мм электродом?»

Ответ системы: В предоставленных источниках информации о параметрах сварки нержавеющей стали нет. Данная база документации посвящена электронике и микроконтроллерам. Для получения корректных параметров сварки рекомендуем обратиться к ГОСТ или технологическим картам по сварочному производству.

Это поведение принципиально важно: система отказывается отвечать, когда вопрос выходит за пределы её базы, а не выдумывает фальшивый ответ. На наших испытаниях правильный отказ давался в 94% случаев.

Вопрос: «В чём разница между D-триггером и JK-триггером?»

Ответ системы: D-триггер (Delay) защёлкивает значение входа D по фронту тактового сигнала: Q становится равно D. У него один информационный вход и одна реакция — простое запоминание текущего значения [Харрис, глава 3.2]. JK-триггер имеет два входа: при J=0, K=0 состояние сохраняется; J=1, K=0 — установка в 1; J=0, K=1 — сброс в 0; J=1, K=1 — переключение состояния (toggle) [Харрис, глава 3.3]. JK-триггер более универсален и часто используется в счётчиках, D-триггер — в регистрах сдвига и защёлках данных.

Как это устроено

Система состоит из двух процессов — подготовки документов и обработки запросов.

Подготовка документов (один раз)

PDF-документы проходят через парсер, который преобразует их в структурированный текст с сохранением иерархии разделов. Затем текст разбивается на смысловые куски примерно по 600 символов, с сохранением контекста раздела. Каждый кусок проходит через две модели: одна превращает его в плотный вектор, отражающий смысл, вторая создаёт разреженный индекс для поиска по точным словам. Готовые куски сохраняются в векторной базе данных Qdrant.

Этот процесс — единоразовый. После завершения база готова отвечать на запросы.

Обработка запроса

Когда пользователь задаёт вопрос:

Вопрос преобразуется в вектор той же моделью, что использовалась для индексирования.
Векторная база находит около 30 наиболее похожих кусков — параллельно по смысловой и лексической близости.
Специальная модель-переоценщик пересматривает эти 30 кусков и выбирает 5 наиболее подходящих именно к этому вопросу.
Эти 5 фрагментов вместе с вопросом отправляются языковой модели Qwen с инструкцией: «Ответь на вопрос, опираясь только на эти фрагменты, и обязательно укажи источники в формате [название документа, раздел]».
Модель формулирует ответ, который видит пользователь.

Схема работы RAG-системы — *Весь процесс занимает 5–10 секунд. Это сравнимо со скоростью набора текста человеком.*

Что внутри системы

Стек технологий, на которых построена система:

Qwen 3.5 (35B параметров) или Qwen 3 (14B параметров) — открытая языковая модель от Alibaba. Понимает русский и английский, развёрнуто отвечает на технические вопросы.
bge-m3 — модель векторных представлений от BAAI. Универсальна для ru+en текстов.
BM25 — классический алгоритм лексического поиска. Дополняет векторный поиск там, где важны точные совпадения терминов и аббревиатур.
bge-reranker-v2-m3 — модель-переоценщик, которая повторно ранжирует найденные фрагменты по релевантности к конкретному вопросу.
Qdrant — векторная база данных с открытым кодом. Хранит индекс и обеспечивает быстрый поиск по миллионам фрагментов.
Ollama — локальный движок запуска языковых моделей.
OpenWebUI — пользовательский интерфейс в стиле ChatGPT, через который сотрудники задают вопросы системе.

Все компоненты — с открытым кодом. Лицензионных платежей нет. Никаких внешних API. Данные не покидают вашу инфраструктуру.

Где это применимо

Везде, где есть большая, относительно стабильная база технических документов, и ежедневная потребность что-то в ней искать. Несколько направлений:

Промышленность и инжиниринг: документация по оборудованию, регламенты технического обслуживания, паспорта изделий, инструкции по эксплуатации. Электроника, машиностроение, энергетика, нефтехимия.
Сварочное производство: ГОСТы, ISO, ASTM, технологические карты, паспорта на электроды и сварочные аппараты, методики контроля качества. Наш следующий проект именно в этой области.
Нормативная база: строительные нормы и правила, технические регламенты, своды правил. Полезно для проектировщиков, инспекторов, юристов в строительной отрасли.
Медицина: клинические рекомендации, протоколы лечения, инструкции к препаратам, фармакопеи. Помощь врачам в принятии решений с обязательной ссылкой на нормативный документ.
Юриспруденция: кодексы, постановления, судебная практика по конкретным категориям дел. Юристы и адвокаты получают релевантные нормы и прецеденты без ручного перелистывания справочников.
Корпоративные базы знаний: внутренние регламенты, политики компании, должностные инструкции, документация по продуктам. Новые сотрудники быстрее адаптируются, опытные — экономят время на стандартных вопросах.

Принципиально важно: для каждой области нужна своя база документов. Универсальной системы «обо всём» не существует. Но методика построения переносится между областями без изменений.

Что показали испытания

На пилоте по электронике мы провели формальную проверку качества системы. Для этого был составлен эталонный набор из 52 вопросов разной сложности: справочные, сравнительные, на отказ, с тонкими нюансами. Все 52 вопроса прогонялись через четыре варианта системы — на разных языковых моделях и с разными настройками.

Ключевые результаты:

86,5% ответов на технические вопросы признаны правильными по существу (на модели Qwen 14B).
94% правильных отказов на вопросы, выходящие за пределы базы документов.
100% ответов содержат корректную ссылку на источник, из которого взята информация.
Среднее время ответа — около 6 секунд на типичном вопросе.

Эти цифры выше или сопоставимы с тем, что показывают известные коммерческие RAG-решения. Главное — каждый ответ можно проверить, и каждый отказ обоснован.

Перспективы развития

RAG-системы — направление, в котором мы видим большое поле приложений на международном рынке.

Отраслевые базы знаний. Любая отрасль с большой нормативной или технической базой — кандидат на внедрение. Сейчас мы готовим перенос методики на сварочное производство (≈10 000 документов). После этого технология легко применима к энергетике, химии, фармацевтике, авиации.

Корпоративные ассистенты. Внутри крупной компании всегда есть тысячи документов, которые нужно знать сотрудникам. RAG превращает их в систему ответов на вопросы, доступную через привычный интерфейс чата.

Образовательные платформы. Учебники, методички, лекции — превращаются в интерактивную базу знаний с ответами на вопросы студентов и обязательными ссылками на источник.

Локализация для разных языков. Используемые модели поддерживают многие языки. Можно строить RAG-системы для документации на английском, русском, немецком, китайском — без принципиальных изменений архитектуры.

Интеграция с существующими системами. Через API систему можно подключить к 1С, корпоративному порталу, мессенджерам, мобильным приложениям. Пользователь задаёт вопрос в привычном интерфейсе, ответ приходит туда же.

Возможности роста ограничены не технологией, а только пониманием конкретного домена и качеством исходных документов.

Демонстрация

Видео работы системы — реальный интерфейс OpenWebUI, реальные вопросы и реальные ответы с источниками.

Хотите такую систему для вашей документации?

Мы строим RAG-системы под конкретные предметные области. От первого обсуждения до работающего решения проходит обычно 4–8 недель в зависимости от объёма документации и сложности предметной области.

Что мы делаем:

Анализируем структуру и качество вашей документации.
Готовим парсинг и индексацию документов.
Настраиваем систему под специфику вашей отрасли — терминологию, аббревиатуры, типы документов.
Совместно с вашим экспертом составляем эталонный набор вопросов, на которых проверяется качество ответов.
Передаём работающую систему и методику её сопровождения.

Система работает полностью на ваших серверах. Лицензионных платежей нет. Все компоненты — с открытым кодом и под открытыми лицензиями.

Обсудить ваш проект →