Меню
Главная Блог компании De Novo Как большая языковая модель (LLM) помогает украинцам заполнять сложные документы
Как большая языковая модель (LLM) помогает украинцам заполнять сложные документы

Как большая языковая модель (LLM) помогает украинцам заполнять сложные документы

2025-04-02

Министерство молодежи и спорта Украины запустило первый в стране сервис на базе больших языковых моделей (LLM) на платформе Дія.Engine. Для размещения LLM использовали самое мощное в Украине оборудование. Это действительно революционное техническое решение в сфере госуслуг. Как это работает, что «под капотом», и как искусственный интеллект «заговорил» на украинском — спросили у технической команды проекта.

Больше успешных заявок и инициатив. Зачем создавали ИИ-помощника?

Благодаря модулю искусственного интеллекта заявки на конкурсы проектов международных молодежных обменов будут проверяться автоматизировано, к тому же конкурсанты получат советы по оформлению заявок. Это важнейший шаг в сфере государственных услуг.
«Эта технология поможет молодежным организациям улучшить качество своих заявок, уменьшить количество технических ошибок и увеличить шансы на реализацию важных инициатив. Мы стремимся, чтобы молодежь Украины и наших международных партнеров получала еще больше возможностей для сотрудничества и развития», — отметил Министр молодежи и спорта Украины Матвей Бедный.

Как было раньше:

«Из-за большого количества полей, сложности порядка и ограниченных сроков заявители часто допускают ошибки при заполнении заявления. Из-за этого они получают низкие баллы и не могут победить в конкурсе. Доработка заявлений не предусмотрена законодательством, поэтому возможности исправления ошибок после подачи у заявителя нет. Можно только отозвать заявление и подать заново, да и то, только в том случае, если заявитель знает, что у него есть ошибки», — пояснили разработчики решения.

Как стало:

Теперь в процессе или по окончанию заполнения заявления можно, буквально в один клик запустить систему автоматизированной проверки, которая выявит типичные ошибки, допускаемые пользователями, и предоставит рекомендации по их устранению.

Таким образом, ИИ-помощник:

  • анализирует заполненные разделы заявки и проверяет их на соответствие требованиям;
  • выявляет типичные ошибки и предлагает рекомендации для улучшения содержания;
  • помогает заявителям подавать более качественные и более конкурентные проекты.

Решение имеет понятный и дружественный интерфейс. Инструкцию по использованию ИИ-помощника Министерство разместило на YouTube канале.

Как создавался ИИ-помощник?

Как настраивали модель

Для проекта были использованы открытые большие языковые модели (LLM) с последующей кастомной настройкой, с учетом доменных данных — нормативных документов, заявок на молодежные обмены, инструкций по их оформлению, типичных ошибок и шаблонов рекомендаций. Использовали примеры верно заполненных заявок, типичных ошибок и получали обратную связь от экспертов. После этого решение интегрировали с сервисом «Конкурс проектов международных молодежных обменов», построенным на базе платформы Дія.Engine.

Использовали подход retrieval-augmented generation (RAG). Retrieval — поиск релевантной информации из внутренней базы знаний. Augmented Generation - построение рекомендаций языковой моделью (LLM) с учетом найденного контента, что помогает минимизировать «галлюцинации» и повысить точность ответов. Все вычисления осуществляются на инфраструктуре ML Cloud от De Novo, данные не покидают границ Украины и не передаются сторонним сервисам.

Как модель распознает текст и понимает, что заявка оформлена правильно?

С использованием LLM мы автоматизировали анализ текста заявки, разбивая его на логические блоки (цель, задачи, описание деятельности, ожидаемые результаты, бюджет и т.д.) и сравнивая их содержание с критериями, зафиксированными в конкурсной документации.

Благодаря такому подходу ИИ:

  • выявляет отсутствующие или неполные блоки;
  • определяет наличие типичных ошибок, например: размытые формулировки целей, отсутствие логики между действиями и ожидаемыми результатами;
  • оценивает соответствие проекта приоритетам конкурса;

На основе этого система формирует индивидуальные рекомендации: что дополнить, где написать более подробно, какие формулировки уточнить.

Сколько понадобилось данных и времени для обучения модели?

Поскольку использовалась готовая LLM, обучение с нуля не проводилось. Основная работа была сосредоточена на:

  • настройке модели с учетом особенностей заявок;
  • создании базы знаний, которая содержит положения о конкурсах, шаблоны, инструкции, примеры прошлых заявок (очищенных от чувствительных данных);
  • тестировании и итеративной донастройке на примерах заполненных заявок с последующей оценкой со стороны экспертов.

Общий цикл настройки (включая исследование, построение логики проверки и интеграцию с Дія.Engine) занял 3,5 месяца.

Откуда LLM знает украинский язык?

Термин «большая языковая модель» часто относится к моделям глубокого обучения с миллиардами параметров, которые были «предварительно обучены» на большом корпусе данных. LLM — это модели общего назначения, которые отлично справляются с большим спектром задач, в отличие от обучения для одной конкретной задачи.

«Для этой задачи остановились на Gemma2-27b от Google которая, среди готовых моделей, которые можно развернуть в локальной инфраструктуре, показала лучший результат для обработки украинского языка (с учетом объема необходимых ресурсов, в частности видеокарт). Сейчас экспериментируем с новой версией Gemma3. В целом решение специально разрабатывали так, чтобы оно не привязывалось к конкретной модели и было более гибким. При этом, стратегически важной задачей мы считаем работу над национальной языковой моделью. Которую, в том числе можно будет использовать для внедрения подобных сервисов как в государственном секторе, так и в бизнесе. Для украинского бизнеса и госсектора такие решения имеют стратегический контекст» — отмечает Александр Акуленко, руководитель направления искусственного интеллекта «MK-Консалтинг».

Инфраструктура: сверхмощное оборудование и две рабочие среды

Мощные модели машинного обучения, в частности такие, как в проекте для Минмолодьспорта, требуют очень мощной и хорошо защищенной программно-аппаратной инфраструктуры. Это потребовало много усилий, экспертизы и больших инвестиций, однако в результате в рамках нашей платформы можно уверенно разворачивать даже критические государственные сервисы.
Для реализации проекта провайдером были подготовлены две IT-среды. Первая — для предварительных экспериментов, настройки модели, тестирования интеграции с платформой Дія.Engine, вторая - для работы готовой модели.

Для развертывания большой языковой модели (LLM gemma2-27b) использовали пул ресурсов, с инстансами NVIDIA GPU — они идеально подходят для машинного обучения и высокопроизводительных вычислений.  Именно в этой конфигурации - ускорители Nvidia H100 и A100.  Акселератор Н100 - один из самых дорогих и малодоступных в Украине. На сегодня он является уникальным предложением на рынке. H100 демонстрирует прирост производительности в 1,5-3 раза по сравнению с A100 в зависимости от типа задачи. В отдельных сценариях обучения больших моделей этот прирост может достигать 5-8 раз благодаря архитектурным оптимизациям.

Так мы добились высокой скорости и качества работы системы. Готовые решения были развернуты на платформе De Novo Tensor Cloud.

* Сервис разработан Министерством молодежи и спорта Украины в рамках Программы EGAP, выполняемой Фондом Восточная Европа при поддержке Швейцарского правительства. Техническая экспертиза предоставлена MK-Консалтинг и провайдером решений для AI/ML De Novo.

© 2008—2025 De Novo (ТОВ «Де Ново»)