Мінмолодьспорт запустило власний сервіс на основі великих мовних моделей. Як це зроблено?

Міністерство молоді та спорту України запустило перший у країні сервіс на базі великих мовних моделей (LLM) на платформі Дія.Engine. Для розміщення LLM використали найпотужніше в Україні обладнання. Це справді революційне технічне рішення у сфері держпослуг. Як це працює, що «під капотом», та як штучний інтелект «заговорив» українською — запитали у технічної команди проєкту.

Більше успішних заявок та ініціатив. Навіщо створювали ШІ-помічника?

Завдяки модулю штучного інтелекту заявки на конкурси проєктів міжнародних молодіжних обмінів будуть перевірятися автоматизовано, до того ж конкурсанти отримають поради щодо оформлення заявок. Це надважливий крок у сфері державних послуг.

«Ця технологія допоможе молодіжним організаціям покращити якість своїх заявок, зменшити кількість технічних помилок та збільшити шанси на реалізацію важливих ініціатив. Ми прагнемо, щоб молодь України та наших міжнародних партнерів отримувала ще більше можливостей для співпраці та розвитку», — зазначив Міністр молоді та спорту України Матвій Бідний.

Як було раніше:

«Через велику кількість полів, складність порядку та обмежені терміни заявники часто припускаються помилок під час заповнення заяви. Через це вони отримують низькі бали й не можуть перемогти в конкурсі. Доопрацювання заяв не передбачено законодавством, тому можливості виправлення помилок після подачі у заявника немає. Можна лише відкликати заяву й подати заново, та й то, лише у тому випадку, якщо заявник знає, що в нього є помилки», — пояснили розробники рішення.

Як стало:

Тепер у процесі чи по закінченню заповнення заяви можна, буквально в один клік запустити систему автоматизованої перевірки, яка виявить типові помилки, що припускаються користувачі, та надасть рекомендації щодо їх усунення.

Таким чином, ШІ-помічник:

аналізує заповнені розділи заявки та перевіряє їх на відповідність вимогам;
виявляє типові помилки та пропонує рекомендації для поліпшення змісту;
допомагає заявникам подавати якісніші та більш конкурентні проєкти.

Рішення має зрозумілий та дружній інтерфейс. Інструкцію з використання ШІ-помічника Міністерство розмістило на YouTube каналі.

Як створювався ШІ-помічник?

Як налашстовували модель

Для проєкту були використані відкриті великі мовні моделі (LLM) з подальшим кастомним налаштуванням, з урахуванням доменних даних — нормативних документів, заявок на молодіжні обміни, інструкцій щодо їх оформлення, типових помилок та шаблонів рекомендацій. Використовували приклади вірно заповнених заявок, типових помилок та отримували зворотний зв'язок від експертів. Після цього рішення інтегрували з сервісом «Конкурс проєктів міжнародних молодіжних обмінів», побудованим на базі платформи Дія.Engine.

Використовували підхід retrieval-augmented generation (RAG). Retrieval — пошук релевантної інформації з внутрішньої бази знань. Augmented Generation — побудова рекомендацій мовною моделлю (LLM) з урахуванням знайденого контенту, що допомагає мінімізувати «галюцинації» та підвищити точність відповідей. Усі обчислення здійснюються на інфраструктурі ML Cloud від De Novo, дані не полишають кордонів України та не передаються стороннім сервісам.

Як модель розпізнає текст та розуміє, що заявку оформлено вірно?

З використанням LLM ми автоматизували аналіз тексту заявки, розбиваючи його на логічні блоки (мета, цілі, опис діяльності, очікувані результати, бюджет тощо) й порівнюючи їх зміст з критеріями, зафіксованими у конкурсній документації.

Завдяки такому підходу ШІ:

виявляє відсутні або неповні блоки;
визначає наявність типових помилок, наприклад: розмиті формулювання цілей, відсутність логіки між діями та очікуваними результатами;
оцінює відповідність проєкту пріоритетам конкурсу;

На основі цього система формує індивідуальні рекомендації: що доповнити, де написати більш докладно, які формулювання уточнити.

Скільки знадобилося даних та часу для навчання моделі?

Оскільки використовувалася готова LLM, навчання з нуля не проводилось. Основна робота була зосереджена на:

налаштуванні моделі з урахуванням особливостей заявок;
створенні бази знань, яка містить положення про конкурси, шаблони, інструкції, приклади минулих заявок (очищених від чутливих даних);
тестуванні та ітеративному доналаштуванні на прикладах заповнених заявок з подальшою оцінкою з боку експертів.

Загальний цикл налаштування (включно з дослідженням, побудовою логіки перевірки та інтеграцією з Дія.Engine) зайняв 3,5 місяці.

Звідки LLM знає українську мову?

Термін «велика мовна модель» часто відноситься до моделей глибокого навчання з мільярдами параметрів, які були «попередньо навчені» на великому корпусі даних. LLM — це моделі загального призначення, які відмінно справляються з великим спектром завдань, на відміну від навчання для одного конкретного завдання.

«Для цієї задачі зупинились на Gemma2-27b від Google яка, серед готових моделей, які можливо розгорнути у локальній інфраструктурі, показала найкращий результат для обробки української мови (з урахуванням обсягу необхідних ресурсів, зокрема відеокарт). Зараз експериментуємо з новою версією Gemma3. Загалом рішення спеціально розробляли так, щоб воно не прив'язувалось до конкретної моделі та було більш гнучким. При цьому, стратегічно важливою задачею ми вважаємо роботу над національною мовною моделлю. Яку, в тому числі можна буде використовувати для впровадження подібних сервісів як у державному секторі, так і в бізнесі. Для українського бізнесу та держсектору такі рішення мають стратегічний контекст» — зазначає Олександр Акуленко, керівник напрямку штучного інтелекту «MK-Консалтинг».

Інфраструктура: надпотужне обладнання та два робочі середовища

Потужні моделі машинного навчання, зокрема такі, як у проєкті для Мінмолодьспорту потребують дуже потужної та добре захищеної програмно-апаратної інфраструктури. Це потребувало багато зусиль, експертизи та великих інвестицій, проте у результаті у межах нашої платформи можна впевнено розгортати навіть критичні державні сервіси.

Для реалізації проєкту провайдером були підготовлені два IT-середовища. Перше — для попередніх експериментів, налаштування моделі, тестування інтеграції з платформою Дія.Engine, друге — для роботи готової моделі.

Для розгортання великої мовної моделі (LLM gemma2-27b) використовували пул ресурсів, з інстансами NVIDIA GPU — вони ідеально підходять для машинного навчання і високопродуктивних обчислень. Саме в цій конфігурації — прискорювачі Nvidia H100 та A100. Акселератор Н100 — один із найдорожчих й малодоступних в Україні. На сьогодні він є унікальною пропозицією на ринку. H100 демонструє приріст продуктивності у 1,5–3 рази порівняно з A100 залежно від типу завдання. В окремих сценаріях навчання великих моделей цей приріст може сягати 5–8 разів завдяки архітектурним оптимізаціям.

Так ми домоглися високої швидкості та якості роботи системи. Готові рішення були розгорнути на платформі De Novo Tensor Cloud.

* Сервіс розроблено Міністерством молоді та спорту України у межах Програми EGAP, що виконується Фондом Східна Європа за підтримки Швейцарського уряду. Технічна експертиза надана MK-Консалтинг та провайдером рішень для AI/ML De Novo.

Кейси

Юридична допомога 24/7: новий ШІ-агент Мін’юсту для обробки звернень

Мін’юст України створює AI-асистента, який відповідатиме на правові питання 24/7. Проєкт працюватиме на LLM у захищеній хмарі De Novo

Детальніше

Як ДАРТ планує оцифрувати «сірий» ринок туризму

«17 тис. об'єктів поза обліком» — До кінця цього року Україна планує оновити Єдиний туристичний реєстр

Детальніше

Менше рутини, менше помилок: як ШІ перевіряє будівельні проєкти

AI для перевірки будівельних проєктів: як "цифровий інспектор" аналізує документи, шукає помилки і автоматизує процеси у держсекторі України

Детальніше

Як український AI прискорює видачу ліцензій у «єДозвіл»

Сервіс «єДозвіл» отримав ШІ-модуль, що автоматично перевіряє документи, знімаючи рутину з посадовців

Детальніше

Українці створюють AI-модель, аналогів якій у світі одиниці

Унікальна модель може змінити світову кардіодіагностику. Працюючи на біосенсорах і потужностях NVIDIA H100, система проводить діагностику за хвилини замість годин

Детальніше

Швидше, точніше й без зайвих тисяч у бюджеті — як LLM допомагає міністерству перевіряти кошториси

Це історія про те, як штучний інтелект допомагає міністерству перевіряти заявки на молодіжні обміни: аналізує кошториси, фільтрує розмиті цілі, виявляє необґрунтовані витрати та підказує, де варто уточнити

Детальніше

Не повторюйте цих помилок. Реальний кейс українського підприємства

Сходили за вас на конференцію про AI, та наразі розповідаємо історію про те, як закупівля дешевої камери ледь не зірвала проєкт із впровадження computer vision на підприємстві. І це не єдине, що пішло не так

Детальніше

AI на полі: як Kernel вирішує головні проблеми агросектору за допомогою Machine Learning

Завеликі поля, занадто мало агрономів, надто мінлива погода. Чи може ШІ бути відповіддю? Kernel впроваджує 12 ML-моделей — від прогнозу фаз росту до агрологістики — й показує, як трансформувати агробізнес через дані

Детальніше

Мінмолодьспорт запустило власний сервіс на основі великих мовних моделей

Міністерство молоді та спорту України запустило перший у країні сервіс на базі великих мовних моделей (LLM) на платформі Дія.Engine. Для розміщення LLM використали найпотужніше в Україні обладнання

Детальніше

З різнорідних елементів в єдину ІТ-систему - Марина Квашніна, Нафтогаз

Кожна компанія проходить свій шлях «цифрової трансформації» і в кожному випадку він унікальний. Особливо, якщо мова йде про організацію національного масштабу

Детальніше

Основа цифровізації сучасного АПК - це дані й алгоритми. Андрій Пеший, CIO Кернел

Успіх агропромислової компанії сьогодні багато в чому залежить від інформаційних технологій. Підвищити урожай, оптимізувати логістику, добитися глибокої автоматизації рутинних операцій і забезпечити повну мобільність співробітників - все це можливо завдяки ефективному застосуванню ІТ

Детальніше

Кожен новий ІТ-проект держави, має бути кращим за попередній - Євген Єнтіс

Про те, як, працює «цифрова трансформація» на конкретних прикладах в державі ми поговорили з Євгеном Єнтісом - людиною, без участі якої важко уявити успіх таких проектів національного масштабу як Prozorro і «Нова Митниця»

Детальніше

Уроки, труднощі та результати цифрової трансформації одного з найбільших банків країни - ПУМБ

Інтерв'ю з Андрієм Бєгуновим, директором департаменту інформаційних технологій банку ПУМБ, який входить до ТОП-7 банків України за об'ємами активів (дані НБУ)

Детальніше