ШІ не склав ЗНО: створено перший національний тест для мовно-візуальних моделей
2025-07-21
De Novo Cloud Expert
Група українських дослідників протестувала популярні мовно-візуальні ШІ-моделі на завданнях із національного тесту ЗНО. Результати виявили системні проблеми: жодна модель не склала тест, а «розуміння» української мови та культури ними виявилось обмеженим.
Команда дослідників з Українського католицького університету, Minerva University та ініціативи OpenBabylon розробила спеціальний бенчмарк та протестувала сучасні мовно-візуальні моделі штучного інтелекту на завданнях Зовнішнього незалежного оцінювання (ЗНО), повідомляє dev.ua.
Проте жодна з шести досліджених моделей не змогла подолати поріг у 70 % правильних відповідей. Найкращий результат показала Gemini 1.5 Pro — 67,5 %. Новий бенчмарк, що отримав назву ZNOVision, став першим мультимодальним тестом, який перевіряє здатність ШІ працювати з україномовним освітнім та культурним контентом.
Комплексний тест складається з понад 4300 завдань, включно з візуальними питаннями, схемами, картами, текстами українською мовою. Серед 13 предметів — фізика, біологія, історія України, література, а також новий блок UACUISINE, присвячений українській кухні. Мета — оцінити, чи здатні генеративні моделі не просто опрацьовувати інформацію, а працювати в межах конкретного культурного та мовного контексту. У розробці тестів взяли участь фахівці з лінгвістики, штучного інтелекту, освіти та культурології.
Українська мова — слабке місце ШІ
Для проходження бенчмарку були обрані моделі GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro, Qwen2VL-72B, Paligemma 3B та її донавчена версія Paligemma-FT. Дослідники використали хмарну інфраструктуру компанії De Novo, яка надала доступ до кластерів з потужними GPU/TPU NVIDIA H100 у захищеному хмарному середовищі, сертифікованому за стандартами КСЗІ.
Питання вимагали не лише знань з предметів, а й здатності розпізнавати українські слова на зображеннях, інтерпретувати інструкції та опрацьовувати контекстні підказки. Деякі тести перевіряли логічне виведення, інші — точність розуміння мови. Тут дуже доречними були саме прискорювачі H100 з тензорними ядрами, які є, фактично, індустріальним стандартом для роботи з великими мовними моделями, особливо в завданнях мультимодального розуміння, які потребують обробки тексту, зображень та контексту одночасно.
Найкращим виявився результат Gemini Pro — 67,5 %, що все одно нижче 70% порогу, необхідного, для складання іспиту. Claude 3.5 набрав 64,3 %, Qwen2VL — 51,2 %, а GPT-4o — лише 47 %. У порівнянні з англомовними бенчмарками, це значно нижчі показники. Найгірше моделі справлялись із мультимодальними завданнями: вони плутали українські одиниці виміру, не розпізнавали слова на зображеннях, ігнорували частину запитань. У тесті VQA-UA, що містив візуальні питання українською, Claude дав 26,7 % правильних відповідей, GPT4o — 29 %, Qwen2VL — 34,4 %. Для порівняння, англомовні моделі у подібних умовах часто перевищують 60 %.
Ще один блок — Multi30K-UK — перевіряв здатність моделей генерувати підписи до зображень українською мовою. Моделі показали BLEU ≈ 4,5 та BERTScore ≈ 0,73, що значно нижче англійських результатів (BLEU > 25, BERT > 0,85). Часто генерувались короткі або мовно змішані підписи.
Тест на «борщ» та цифрова рівність
Особливо показовим став блок UACUISINE, що перевіряв знання про українські страви. Базова модель Paligemma змогла правильно відповісти лише у 3 % випадків, часто називаючи українські страви частиною російської кухні. Проте після донавчання точність виросла до 34 %, що демонструє, наскільки важливими є якісні локалізовані дані для open-source моделей. Цей результат підтверджує: навіть невеликий обсяг україномовного контенту може істотно підвищити точність моделей при роботі з локальними завданнями.
ZNOVision — це не лише науковий експеримент. Його результати мають практичне значення для EdTech-платформ, AI-стартапів, локалізаційних сервісів. Бенчмарк може бути використаний для навчання моделей, створення адаптивних освітніх курсів або перевірки якості чат-ботів. Участь De Novo, яка надала хмарні ресурси для тестування, стала важливою інфраструктурною опорою проєкту. Бенчмарк відкриває ширшу дискусію про цифрову нерівність мов — це перший крок до системної перевірки ШІ з урахуванням українського контексту. Системна неспроможність популярних LLM ефективно працювати українською свідчить про потребу в локалізованих дослідженнях, інвестиціях у навчальні датасети та розробку власних мультимодальних моделей.