Главная Блог компании De Novo Более 60 миллионов токенов без просадок — как тестировали новые украинские LLM

Более 60 миллионов токенов без просадок — как тестировали новые украинские LLM

2026-06-11

De Novo Cloud Expert

В середине мая на технологическую арену вышла Lapathoniia — новая украинская платформа для хостинга и интеграции LLM. Сервис, который сейчас развернут в облаке De Novo, предоставляет возможность работать с отечественными языковыми моделями, размещенными в защищенной и суверенной среде внутри страны.

Официальный дебют вызвал такой интерес, что даже в режиме бета-тестирования платформа столкнулась с настоящим ажиотажем и наплывом пользователей. Однако колоссальные нагрузки никак не повлияли на ее работоспособность.

Команда Lapathoniia, а точнее ее сооснователи — Богдан Диденко и Владислав Мельник — поделились первыми результатами бета-тестирования, рассказав, как платформа пережила наплыв пользователей, какие метрики отслеживались и что эти данные говорят о готовности украинских LLM к реальным нагрузкам.

С чего все начиналось

Сами языковые модели Mamay и Lapa появились еще осенью прошлого года. Тогда стартовала первая волна любительского тестирования, а разработчики выявляли первые недостатки и собирали обратную связь. Логическим продолжением стал запуск 15 мая платформы Lapathoniia в режиме бета-тестирования, что обеспечило действительно удобный способ взаимодействия с языковыми моделями.

Также в конце мая был представлен Lapathoniia Chat, призванный продемонстрировать возможности этих моделей. Главная цель состояла в том, чтобы раскрыть потенциал украинских LLM в уже привычном для пользователей формате — через диалог с AI-ассистентом. Ведь настоящая сила языковой модели лучше всего проявляется не в таблицах или описаниях, а в реальном живом взаимодействии.

В Lapathoniia Chat каждый может протестировать украинские LLM в сценариях, максимально приближенных к повседневному использованию: от обычного диалога, веб-поиска и сохранения истории разговоров до сложной работы с файлами и даже deep research. Главная идея проекта заключается в том, чтобы украинские LLM воспринимались как полноценная рабочая технология, с которой можно взаимодействовать, которую можно интегрировать и развивать.

С технической точки зрения потоковый чат уже полноценно работает с моделями Lapa и Mamay через API и полностью совместим с OpenAI. Сервис поддерживает собственный ключ доступа пользователя (API key), историю диалогов, краткосрочный контекст и интеллектуальную память на базе mem0 и pgvector.

Для работы с файлами реализовано автоматическое извлечение текста из PDF, DOCX, TXT, CSV, JSON, Markdown и файлов с программным кодом. Также доступна функция поиска в интернете, реализованная через Tavily, а в случае недоступности основного поискового механизма автоматически включается резервный вариант — локальный поиск Miyami и DuckDuckGo. Разумеется, предусмотрена и жесткая фильтрация российских источников.

Даже в бета-версии уже работает функция глубокого исследования (deep research): в этом режиме запрос пользователя разбивается на несколько поисковых подзапросов, результаты объединяются и передаются языковой модели в качестве дополнительного контекста для формирования максимально точного ответа.

Разработчики не забыли и о безопасности. В системе реализованы многоуровневые механизмы защиты, включающие фильтры по ключевым словам против атак на подмену инструкций (prompt injection), NeMo Guardrails для проверки безопасности ответов и Presidio для обнаружения персональных данных (PII detection).

Дополнительные правила надежно блокируют утечку API-ключей, системного промпта и внутренних инструкций. Важно подчеркнуть, что это ИИ, который полностью работает внутри страны — в облачной инфраструктуре De Novo, то есть данные физически остаются в пределах украинских дата-центров.

На текущем этапе чат-ассистента уже вполне можно рассматривать как наглядную демонстрацию развитых возможностей украинских LLM. По словам разработчиков, опыт взаимодействия с ним должен мотивировать пользователей создавать собственные приложения на базе предоставленного API.

Промежуточные результаты

Система работает надежно и без существенных сбоев — это подтверждают пользователи. Кроме того, благодаря новым инструментам модели раскрывают свои возможности гораздо полнее и интереснее. Особенно показательным результатом текущего бета-тестирования стала высокая стабильность серверной инфраструктуры.

Даже в самый критический момент, когда новость о запуске платформы стремительно разлетелась по множеству источников и пользователи массово начали тестировать сервис, инфраструктура De Novo, где развернуты модели, продемонстрировала абсолютную устойчивость. При этом сложности возникали с некоторыми интегрированными в чат инструментами — например, веб-поиск быстро достиг лимитов по количеству запросов.

Несмотря на «демонстрационный» статус, национальные LLM получили колоссальный поток запросов сразу после запуска чата. Однако модели стабильно работали даже при нагрузках в миллионы токенов в сутки, а в пиковые моменты этот показатель достигал 61 млн. Облачная инфраструктура выдержала такую нагрузку без каких-либо проблем. В отдельные периоды загрузка GPU-карт достигала почти 80% — было обработано более 11 тыс. запросов. Инфраструктура полностью справилась со всеми скачками нагрузки. Это подтверждает, что архитектура была выбрана оптимально и обеспечивает бесшовное масштабирование при необходимости.

Lapathoniia Chat interface — Интерфейс Lapathoniia Chat.
Все желающие приглашаются к тестированию: https://chat.lapathoniia.top/

Во время тестирования специалисты тщательно проверяли качество работы LapaLLM и MamayLM на специализированных публичных бенчмарках. Оценивалось понимание украинского текста, двусторонний перевод (укр/англ), лаконичное обобщение текстов, выполнение инструкций, а также школьные задачи и задания в формате ВНО. Отдельно проверялось, насколько хорошо модели справляются со сложными формулировками и специализированной терминологией на украинском языке.

Пока еще рано утверждать, что модели полностью устойчивы ко всем сложным сценариям, однако сам процесс тестирования был разработан именно для выявления потенциальных проблем. Для Lapa часть этих вопросов решается благодаря адаптированному украинскому токенизатору, который позволяет чаще генерировать целые слова, а это, в свою очередь, снижает вероятность ошибок в общеупотребительной терминологии. Кроме того, обе модели проходили этап предварительного обучения на большом корпусе украинского языка, что значительно улучшило их способность генерировать сложные формулировки по сравнению с базовой Gemma 3 от Google, которая, кстати, лежит в основе обеих украинских LLM.

Какие метрики использовались

Если LapaLLM базируется на Gemma-3-12B, то, где проходит граница между «украинской» LLM и адаптированной западной моделью с открытыми весами? Хотя терминология здесь пока окончательно не устоялась, разработчики придерживаются мнения, что украинской можно считать модель, которая прошла этап предварительного обучения на большом корпусе украинского языка. LapaLLM получила замененный токенизатор и эволюционировала с этапа предварительного обучения Gemma 3, то есть все навыки взаимодействия с пользователем она приобрела уже в ходе украинского обучения.

MamayLM имеет собственный путь обучения, благодаря которому она несколько ближе к базовой Gemma 3, не обученной на инструкциях, и поэтому сохраняет больше возможностей исходной модели Google.

Модель Lapa также стабильно работает с длинным контекстом объемом до 32К токенов. Например, одна из организаций, тестировавших украинские модели, создала отдельный закрытый бенчмарк в формате «иголка в стоге сена»: модель получает длинный украинский текст со скрытой важной деталью и должна корректно ее найти и воспроизвести. По результатам этого теста LapaLLM Instruct и MamayLM показали лучший результат, чем базовая Gemma.

Тестирование также показало эффективную обработку до 32 параллельных запросов. Практика доказала, что стриминг запускается очень быстро: первый токен обычно поступал через 0,1–0,4 секунды, а даже в самых медленных сценариях это время не превышало 0,6 секунды. Заметная очередь появлялась только на уровне 64 параллельных запросов, где медианный TTFT увеличивался примерно до 1,8 секунды, а p95 — примерно до 4,1 секунды.

В тестах с 256 параллельными запросами система работала стабильно и без единой ошибки, однако часть ответов демонстрировала более длинный «хвост» задержек: если большинство запросов обрабатывалось за несколько секунд, то самые медленные могли занимать до 8–10 секунд. В целом это нормальное и ожидаемое поведение при столь экстремальной нагрузке.

В ходе тестирования использовалось множество метрик, в том числе технических: количество запросов, успешных и неуспешных ответов, задержки (p50/p95/p99). Специалисты тщательно отслеживали пропускную способность, количество промптов и токенов в секунду, уровень параллелизма запросов, поведение системы под нагрузкой и многие другие параметры. Также разработчики прогоняли модели через украинские бенчмарки, включая QA-задачи, запросы в формате ВНО и другие сценарии. Это позволило получить комплексную оценку качества ответов, работы с украинским языком и выполнения инструкций.

В целом собранных данных достаточно, чтобы утверждать: система технически выдерживает тестовую нагрузку и может успешно использоваться в закрытой бета-версии. Однако для окончательных выводов о готовности к промышленной эксплуатации потребуются дополнительные и более продолжительные испытания. Поэтому основная работа еще впереди.

AI/ML