Как большая языковая модель (LLM) помогает украинцам заполнять сложные документы
2025-04-02
Министерство молодежи и спорта Украины запустило первый в стране сервис на базе больших языковых моделей (LLM) на платформе Дія.Engine. Для размещения LLM использовали самое мощное в Украине оборудование. Это действительно революционное техническое решение в сфере госуслуг. Как это работает, что «под капотом», и как искусственный интеллект «заговорил» на украинском — спросили у технической команды проекта.
Больше успешных заявок и инициатив. Зачем создавали ИИ-помощника?
Благодаря модулю искусственного интеллекта заявки на конкурсы проектов международных молодежных обменов будут проверяться автоматизировано, к тому же конкурсанты получат советы по оформлению заявок. Это важнейший шаг в сфере государственных услуг.
«Эта технология поможет молодежным организациям улучшить качество своих заявок, уменьшить количество технических ошибок и увеличить шансы на реализацию важных инициатив. Мы стремимся, чтобы молодежь Украины и наших международных партнеров получала еще больше возможностей для сотрудничества и развития», — отметил Министр молодежи и спорта Украины Матвей Бедный.
Как было раньше:
«Из-за большого количества полей, сложности порядка и ограниченных сроков заявители часто допускают ошибки при заполнении заявления. Из-за этого они получают низкие баллы и не могут победить в конкурсе. Доработка заявлений не предусмотрена законодательством, поэтому возможности исправления ошибок после подачи у заявителя нет. Можно только отозвать заявление и подать заново, да и то, только в том случае, если заявитель знает, что у него есть ошибки», — пояснили разработчики решения.
Как стало:
Теперь в процессе или по окончанию заполнения заявления можно, буквально в один клик запустить систему автоматизированной проверки, которая выявит типичные ошибки, допускаемые пользователями, и предоставит рекомендации по их устранению.
Таким образом, ИИ-помощник:
- анализирует заполненные разделы заявки и проверяет их на соответствие требованиям;
- выявляет типичные ошибки и предлагает рекомендации для улучшения содержания;
- помогает заявителям подавать более качественные и более конкурентные проекты.
Решение имеет понятный и дружественный интерфейс. Инструкцию по использованию ИИ-помощника Министерство разместило на YouTube канале.
Как создавался ИИ-помощник?
Как настраивали модель
Для проекта были использованы открытые большие языковые модели (LLM) с последующей кастомной настройкой, с учетом доменных данных — нормативных документов, заявок на молодежные обмены, инструкций по их оформлению, типичных ошибок и шаблонов рекомендаций. Использовали примеры верно заполненных заявок, типичных ошибок и получали обратную связь от экспертов. После этого решение интегрировали с сервисом «Конкурс проектов международных молодежных обменов», построенным на базе платформы Дія.Engine.
Использовали подход retrieval-augmented generation (RAG). Retrieval — поиск релевантной информации из внутренней базы знаний. Augmented Generation - построение рекомендаций языковой моделью (LLM) с учетом найденного контента, что помогает минимизировать «галлюцинации» и повысить точность ответов. Все вычисления осуществляются на инфраструктуре ML Cloud от De Novo, данные не покидают границ Украины и не передаются сторонним сервисам.
Как модель распознает текст и понимает, что заявка оформлена правильно?
С использованием LLM мы автоматизировали анализ текста заявки, разбивая его на логические блоки (цель, задачи, описание деятельности, ожидаемые результаты, бюджет и т.д.) и сравнивая их содержание с критериями, зафиксированными в конкурсной документации.
Благодаря такому подходу ИИ:
- выявляет отсутствующие или неполные блоки;
- определяет наличие типичных ошибок, например: размытые формулировки целей, отсутствие логики между действиями и ожидаемыми результатами;
- оценивает соответствие проекта приоритетам конкурса;
На основе этого система формирует индивидуальные рекомендации: что дополнить, где написать более подробно, какие формулировки уточнить.
Сколько понадобилось данных и времени для обучения модели?
Поскольку использовалась готовая LLM, обучение с нуля не проводилось. Основная работа была сосредоточена на:
- настройке модели с учетом особенностей заявок;
- создании базы знаний, которая содержит положения о конкурсах, шаблоны, инструкции, примеры прошлых заявок (очищенных от чувствительных данных);
- тестировании и итеративной донастройке на примерах заполненных заявок с последующей оценкой со стороны экспертов.
Общий цикл настройки (включая исследование, построение логики проверки и интеграцию с Дія.Engine) занял 3,5 месяца.
Откуда LLM знает украинский язык?
Термин «большая языковая модель» часто относится к моделям глубокого обучения с миллиардами параметров, которые были «предварительно обучены» на большом корпусе данных. LLM — это модели общего назначения, которые отлично справляются с большим спектром задач, в отличие от обучения для одной конкретной задачи.
«Для этой задачи остановились на Gemma2-27b от Google которая, среди готовых моделей, которые можно развернуть в локальной инфраструктуре, показала лучший результат для обработки украинского языка (с учетом объема необходимых ресурсов, в частности видеокарт). Сейчас экспериментируем с новой версией Gemma3. В целом решение специально разрабатывали так, чтобы оно не привязывалось к конкретной модели и было более гибким. При этом, стратегически важной задачей мы считаем работу над национальной языковой моделью. Которую, в том числе можно будет использовать для внедрения подобных сервисов как в государственном секторе, так и в бизнесе. Для украинского бизнеса и госсектора такие решения имеют стратегический контекст» — отмечает Александр Акуленко, руководитель направления искусственного интеллекта «MK-Консалтинг».
Инфраструктура: сверхмощное оборудование и две рабочие среды
Мощные модели машинного обучения, в частности такие, как в проекте для Минмолодьспорта, требуют очень мощной и хорошо защищенной программно-аппаратной инфраструктуры. Это потребовало много усилий, экспертизы и больших инвестиций, однако в результате в рамках нашей платформы можно уверенно разворачивать даже критические государственные сервисы.
Для реализации проекта провайдером были подготовлены две IT-среды. Первая — для предварительных экспериментов, настройки модели, тестирования интеграции с платформой Дія.Engine, вторая - для работы готовой модели.
Для развертывания большой языковой модели (LLM gemma2-27b) использовали пул ресурсов, с инстансами NVIDIA GPU — они идеально подходят для машинного обучения и высокопроизводительных вычислений. Именно в этой конфигурации - ускорители Nvidia H100 и A100. Акселератор Н100 - один из самых дорогих и малодоступных в Украине. На сегодня он является уникальным предложением на рынке. H100 демонстрирует прирост производительности в 1,5-3 раза по сравнению с A100 в зависимости от типа задачи. В отдельных сценариях обучения больших моделей этот прирост может достигать 5-8 раз благодаря архитектурным оптимизациям.
Так мы добились высокой скорости и качества работы системы. Готовые решения были развернуты на платформе De Novo Tensor Cloud.
* Сервис разработан Министерством молодежи и спорта Украины в рамках Программы EGAP, выполняемой Фондом Восточная Европа при поддержке Швейцарского правительства. Техническая экспертиза предоставлена MK-Консалтинг и провайдером решений для AI/ML De Novo.