Понад 60 мільйонів токенів без просідання — як тестували нові українські LLM
2026-06-11
De Novo Cloud Expert
У середині травня на технологічну арену вийшла Lapathoniia — нова українська платформа для хостингу та інтеграції LLM. Сервіс, який наразі розгорнуто у хмарі De Novo, надає можливість працювати з вітчизняними мовними моделями, розміщеними у захищеному та суверенному середовищі всередині країни.
Офіційний дебют викликав таку цікавість, що попри режим бета-тестування платформа відчула справжній ажіотаж та «навалу» з боку користувачів. Проте колосальні навантаження жодним чином не вплинули на її працездатність.
Команда Lapathoniia, а точніше співзасновники та співрозробники платформи — Богдан Діденко та Владислав Мельник — поділилися першими результатами бета-тестування, розповівши, як платформа пережила наплив користувачів, які метрики відстежувалися та що ці дані говорять про готовність українських LLM до реального навантаження.
З чого все починалось
Самі мовні моделі, Mamay та Lapa, побачили світ ще восени минулого року. Тоді стартувала перша хвиля аматорського тестування, а розробники виявляли перші недоліки та отримували зворотний зв’язок. Логічним продовженням став запуск 15 травня платформи Lapathoniia у режимі бета-тестування, що забезпечило дійсно зручний спосіб взаємодії з мовними моделями. Також наприкінці травня світ побачив Lapathoniia Chat, покликаний наочно продемонструвати можливості згаданих мовних моделей. Головною метою було розкрити потенціал українських LLM у форматі, який вже став звичним для всіх — у діалозі з AI-асистентом. Адже справжню силу мовної моделі найкраще видно не в таблицях чи описах, а у реальній, живій взаємодії.
У Lapathoniia Chat кожен може випробувати українські LLM у сценаріях, максимально наближених до повсякденного використання: від звичайного діалогу, вебпошуку й збереження історії розмов до складної роботи з файлами та навіть deep research. Головна ідея проєкту — щоб українські LLM сприймалися як повноцінна робоча технологія, з якою можна взаємодіяти, яку можна інтегрувати й розвивати.
З технічної точки зору потоковий чат вже повноцінно працює з моделями Lapa та Mamay через API та повністю сумісний з OpenAI. Сервіс підтримує власний ключ доступу користувача (API key), історію діалогів, короткостроковий контекст і розумну памʼять на базі mem0 та pgvector.
Для роботи з файлами реалізовано автоматичне витягування тексту з PDF, DOCX, TXT, CSV, JSON, Markdown і файлів із програмним кодом. Також є функція пошуку в Інтернеті, реалізована через Tavily, а у разі недоступності основного пошукового механізму автоматично вмикається резервний варіант — локальний пошук Miyami та DuckDuckGo. Звісно, передбачена й жорстка фільтрація російських джерел.
Навіть у бета-версії наразі працює функція глибокого дослідження (deep research): у цьому режимі запит користувача розбивається на кілька пошукових підзапитів, результати об’єднуються та передаються мовній моделі як додатковий контекст для формування максимально точної відповіді.
Звісно ж не забули й про безпеку — у системі реалізовані багаторівневі захисні механізми, які включають фільтри за ключовими словами проти атак на підміну інструкцій (prompt injection), NeMo Guardrails для перевірки безпеки відповіді та Presidio для виявлення персональних даних (PII-detection). Додаткові правила надійно блокують витік ключів доступу до API, системного промпта або внутрішніх інструкцій. Підкреслю, що це ШІ, який повністю живе в нашій країні — у хмарній інфраструктурі De Novo, тобто дані фізично залишаються в межах українських датацентрів.
На поточному етапі чат-асистента вже цілком можна розглядати як наочну демонстрацію розвинених можливостей українських LLM. За словами розробників, досвід взаємодії повинен спонукати користувачів до створення власних застосунків на базі створеного API.
Проміжні результати
Система працює надійно та без суттєвих збоїв — підтверджують користувачі. До того ж у контексті нових інструментів моделі розкривають себе значно повніше та цікавіше. Вкрай показовим фактом поточного бета-тестування стала висока стабільність серверної інфраструктури. Навіть у найкритичніший момент, коли новина про запуск платформи блискавично розлетілася багатьма джерелами, і люди почали масово тестувати сервіс, інфраструктура De Novo, де розгорнуто модель, демонструвала абсолютну стійкість. Натомість виникали проблеми з деякими інтегрованими в чат інструментами — наприклад, вебпошук швидко вперся в ліміти за кількістю запитів.

Усі охочі запрошуються до тестування: https://chat.lapathoniia.top/
Попри «демонстраційний» статус, національні LLM отримали колосальний наплив запитів саме після запуску чату. Проте моделі стійко працювали навіть при навантаженнях у мільйони токенів на добу, а в пікові моменти цей показник сягав 61 млн — хмарна інфраструктура витримала цей удар без проблем. Подекуди утилізація карток сягала майже 80% — це понад 11 тис. запитів. Інфраструктура повністю впоралася з усіма стрибками навантажень. Це доводить, що архітектура була підібрана оптимально й забезпечує безшовне масштабування за потреби.
Під час тестування експерти ретельно перевіряли якість роботи LapaLLM та MamayLM на спеціалізованих публічних бенчмарках. Оцінювалося розуміння українського тексту, двосторонній переклад (укр/англ), лаконічне узагальнення текстів, виконання інструкцій, а також шкільні задачі та завдання у форматі ЗНО. Окремо перевіряли, як моделі дають собі раду зі складними формулюваннями та термінами українською.
Наразі стверджувати, що моделі повністю стійкі до всіх складних випадків, зарано, але процес тестування й був розроблений саме для виявлення потенційних проблем. Для Lapa ці питання частково вирішуються завдяки адаптованому українському токенізатору, що дозволяє частіше генерувати цілі слова, а це, своєю чергою, зменшує ймовірність помилки у широковживаних термінах. Крім того, обидві моделі проходили етап попереднього навчання на великому корпусі української мови, що значно покращує їхню здатність генерувати складні формулювання порівняно з базовою Gemma 3 від Google, яка, до речі, лежить в основі обох українських LLM.
Які метрики використовувалися
Проте, якщо LapaLLM базується на Gemma-3-12B, де проходить та межа між «українською» LLM та адаптованою західною моделлю з відкритими вагами? Хоча термінологія тут ще не до кінця усталена, розробники дотримуються думки, що українською можна назвати ту модель, яка пройшла етап попереднього навчання на великому корпусі української мови. LapaLLM отримала замінений токенізатор й еволюціонувала з етапу попереднього навчання Gemma 3 тобто усіх навичок взаємодії з користувачем вона набула вже під час українського тренування.
MamayLM має власний шлях тренування, у результаті якого вона дещо ближча до базової Gemma 3, нетренованої на інструкціях, тому зберігає більше навичок початкової моделі Google.
Модель Lapa також стабільно працює з довгим контекстом, обсяг якого наразі становить 32К токенів. Наприклад, одна з організацій, яка тестувала українські моделі, створила окремий закритий бенчмарк у форматі «голка в сіні»: модель отримує довгий український текст із прихованою важливою деталлю і має правильно її знайти та відтворити. За цим тестом LapaLLM Instruct і MamayLM показали кращий результат, ніж базова Gemma.
Також тестування показало ефективну обробку до 32 паралельних запитів. Практика довела, що стрімінг стартує дуже швидко: перший токен зазвичай приходив за 0,1–0,4 секунди, а в найповільніших сценаріях цей час не перевищував 0,6 секунди. Помітна черга з’являлася лише на рівні 64 паралельних запитів, де медіанний TTFT зростав до ~1,8 секунди, а p95 — до ~4,1 секунди.
У тестах із 256 паралельними запитами система працювала стабільно, без жодних помилок, але частина відповідей мала довший «хвіст» затримки: коли більшість запитів оброблялася за кілька секунд, найповільніші з них могли займати до 8–10 секунд. Загалом це нормальна та очікувана поведінка під таким екстремальним навантаженням.
Звісно, під час тестування використовувалися численні метрики, зокрема технічні: кількість запитів, успішних та невдалих відповідей, затримки (p50/p95/p99). Фахівці ретельно відстежували пропускну здатність, кількість промптів та токенів за секунду, рівень паралельності запитів, поведінку системи під навантаженням та багато інших факторів. Також розробники проганяли моделі на українських бенчмарках, включно з QA-задачами, запитами у форматі ЗНО тощо. Це дало можливість отримати комплексну оцінку якості відповідей, роботи з українською мовою та виконання інструкцій.
Загалом зібраних даних достатньо, щоб стверджувати: система технічно витримує тестове навантаження та може успішно використовуватися в закритій беті. Проте для остаточних висновків про готовність до продакшену потрібні ще численні та триваліші тести. Тому основна робота ще попереду.