Главная Блог компании De Novo ИИ не сдал выпускной экзамен: создан первый украинский тест для LMM

ИИ не сдал выпускной экзамен: создан первый украинский тест для LMM

2025-07-21

De Novo Cloud Expert

Группа украинских исследователей протестировала популярные модели ИИ на заданиях, взятых из национального теста для выпускников школ (ЗНО). Результаты выявили системные проблемы: ни одна модель не прошла тест, а «понимание» украинского языка и культуры оказалось ограниченным.

Команда исследователей из Украинского католического университета, Minerva University и инициативы OpenBabylon разработала специальный бенчмарк и протестировала современные языково-визуальные модели искусственного интеллекта на заданиях теста для выпускников общеобразовательных украинских школ (зовнішнє незалежне оцінювання, ЗНО), сообщает dev.ua.

Однако ни одна из шести исследуемых моделей не смогла преодолеть порог в 70 % правильных ответов. Лучший результат показала Gemini 1.5 Pro — 67,5 %. Новый бенчмарк, получивший название ZNOVision, стал первым мультимодальным тестом, проверяющим способность ИИ работать с украиноязычным образовательным и культурным контентом.

Комплексный тест состоит из более чем 4300 заданий, включая визуальные вопросы, схемы, карты, тексты на украинском языке. Среди 13 предметов — физика, биология, история Украины, литература, а также новый блок UACUISINE, посвящённый украинской кухне. Цель — оценить, способны ли генеративные модели не просто обрабатывать информацию, а работать в рамках конкретного культурного и языкового контекста. В разработке тестов принимали участие специалисты по лингвистике, искусственному интеллекту, образованию и культурологии.

Украинский язык — слабое место ИИ

Для прохождения бенчмарка были выбраны модели GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro, Qwen2VL-72B, Paligemma 3B и её дообученная версия Paligemma-FT. Исследователи использовали облачную инфраструктуру компании De Novo, которая предоставила доступ к кластерам с мощными GPU/TPU NVIDIA H100 в защищённой облачной среде, сертифицированной по стандартам КСЗИ.

Вопросы требовали не только предметных знаний, но и способности распознавать украинские слова на изображениях, интерпретировать инструкции и учитывать контекстные подсказки. Некоторые задания проверяли логическое выведение, другие — точность понимания языка. Здесь особенно уместным оказался выбор ускорителей H100 с тензорными ядрами, которые фактически стали отраслевым стандартом для работы с крупными языковыми моделями — особенно в мультимодальных задачах, требующих одновременной обработки текста, изображений и контекста.

Лучший результат показала Gemini Pro — 67,5 %, что всё равно ниже 70% порога, необходимого для сдачи экзамена. Claude 3.5 набрал 64,3 %, Qwen2VL — 51,2 %, а GPT-4o — всего 47 %. По сравнению с англоязычными бенчмарками это значительно более низкие показатели. Хуже всего модели справлялись с мультимодальными заданиями: они путали украинские единицы измерения, не распознавали слова на изображениях, игнорировали часть формулировки вопросов. В тесте VQA-UA, который включал визуальные вопросы на украинском, Claude дал 26,7 % правильных ответов, GPT4o — 29 %, Qwen2VL — 34,4 %. Для сравнения: англоязычные модели в схожих условиях часто превышают 60 %.

Ещё один блок — Multi30K-UK — проверял способность моделей генерировать подписи к изображениям на украинском языке. Модели показали BLEU ≈ 4,5 и BERTScore ≈ 0,73, что значительно ниже английских результатов (BLEU > 25, BERT > 0,85). Часто генерировались короткие либо языково смешанные подписи.

Тест на борщ и цифровое равенство

Особенно показателен оказался блок UACUISINE, который проверял знание украинских блюд. Базовая модель Paligemma смогла правильно ответить лишь в 3 % случаев, часто причисляя украинские блюда к русской кухне. Однако после дообучения точность выросла до 34 %, что демонстрирует важность качественных локализованных данных для open-source моделей. Этот результат подтверждает: даже небольшой объём украиноязычного контента может существенно повысить точность моделей при работе с локальными задачами.

ZNOVision — это не просто научный эксперимент. Его результаты имеют практическое значение для EdTech-платформ, AI-стартапов, локализационных сервисов. Бенчмарк может быть использован для обучения моделей, создания адаптивных образовательных курсов или оценки качества чат-ботов. Участие компании De Novo, предоставившей облачные ресурсы для тестирования, стало важной инфраструктурной опорой проекта.

Бенчмарк открывает более широкую дискуссию о цифровом неравенстве языков — это первый шаг к системной проверке ИИ с учётом украинского контекста. Системная неспособность популярных LLM эффективно работать на украинском языке свидетельствует о необходимости локализованных исследований, инвестиций в обучающие датасеты и разработки собственных мультимодальных моделей.

AI/ML