Почему ошибаются LLM и что с этим делать
2026-07-01
De Novo Cloud Expert
Ошибки и «галлюцинации» больших языковых моделей — это, возможно, фундаментальная неустранимая проблема, но есть и хорошие новости.
Каждый, кто пользовался LLM, вроде ChatGPT, Gemini, Grok и пр., наверняка не раз сталкивался с проблемой «галлюцинаций» LLM или даже просто ошибками в выдачах. По началу казалось, что это только болезнь роста и новые оптимизации алгоритмов устранят сами причины неверных ответов. Время идет, появляются новые итерации языковых моделей, но на искусственный интеллект все так же нельзя положиться в полной мере. Теперь, похоже, понятно почему.
Ошибались, ошибаются и будут ошибаться
Идея о том, что LLM имеют естественный предел развития и точности, вроде бы, очевидна. Исследования в данном направлении проводились не раз, но в последнее время, ввиду высокой актуальности вопроса, тему начали прорабатывать особенно активно. Научные и околонаучные работы в этом направлении выходят регулярно. Одна из новых публикаций — «О некоторых основных ограничениях языковых моделей на основе трансформеров» (On Some Basic Limitations of Transformer-Based Language Models) — подготовленная двумя исследователями Варином Сикка (Стэнфордский университет) и Вишалом Сикка (компания VianAI Systems), приоткрывает загадку того, почему LLM так часто ошибаются и можно ли на это повлиять.
Плохая новость в том, что согласно расчётам авторов, «галлюцинации» — это не просто случайные сбои, а следствие архитектурных ограничений языковых моделей, как таковых. Исследователи детально проанализировали механизм self-attention («самовнимание») — ключевой компонент трансформеров, который отвечает за учёт контекста. Его вычислительная сложность составляет порядка O(N²·d), где N — длина последовательности токенов (элементов текста), а d — размер внутреннего представления. Именно этот предел задаёт максимальный объём вычислений, доступный модели при формировании ответа. Пока задача укладывается в этот «квадратичный бюджет», модель работает надёжно. Как только сложность выходит за эти рамки, она перестаёт выполнять точные вычисления и переходит к вероятностной аппроксимации — фактически «угадывает» ответ.
Авторы демонстрируют это на примерах, хорошо известных в теории алгоритмов. Перебор всех возможных комбинаций растёт экспоненциально (nᵏ), задача коммивояжёра приводит к факториальному росту числа вариантов, а умножение матриц в базовых алгоритмах имеет кубическую сложность O(n³) (число операций растёт пропорционально кубу размера задачи).
Соответственно, если в запросе есть подзадача, требующая большего объёма вычислений, чем модель способна выполнить в рамках одного ответа, LLM в общем случае не может гарантировать корректный результат. Это ограничение распространяется и на проверку решений. Попытка выстроить цепочку «агентов» (agentic AI — автономных систем на базе LLM), где одна модель решает задачу, а другая проверяет результат, не устраняет проблему: во многих случаях сама процедура проверки оказывается вычислительно более сложной, чем получение решения.
Если теория верна, то на практике это означает, что во многих прикладных задачах — от оптимизации маршрутов и расписаний до формальной проверки программ, где используются задачи высокой сложности — LLM принципиально не могут гарантировать корректность. Даже так называемые «рассуждающие модели» (reasoning models), которые генерируют дополнительные промежуточные шаги, остаются в рамках того же вычислительного ограничения и при росте сложности демонстрируют эффект «схлопывания рассуждений» (reasoning collapse). На задачах, требующим строгих вычислений, полной точной проверки или гарантированной оптимальности, надёжность результатов резко снижается.
Общий вывод, который можно сделать на основе исследования неутешителен — ограничения больших языковых моделей касаются не просто отдельных задач, но самой природы их «интеллекта».
Где проходит граница возможностей?
Так что, выходит, всё пропало и LLM это очередной пузырь надутый маркетологами? Вовсе нет. Во-первых, статья, о которой мы говорим — это теория, но даже если она верна, она лишь показывает границы возможностей подхода. Большие языковые модели могут принести большую пользу и отлично работают например там, где результат можно представить в виде статистических закономерностей текста — их сила в интерпретации, обобщении и синтезе смысла. Они хорошо справляются с формулированием гипотез, объяснением сложных концепций и навигацией по знаниям. Но там, где требуется строгая процедура с проверяемым результатом, модель зачастую фактически переходит от вычисления к вероятностной оценке. Здесь и возникает разрыв между «убедительным ответом» и действительно корректным решением.
Важно, что это ограничение не является фатальным для прикладных сценариев. Оно лишь указывает на необходимость правильной архитектуры. На практике наибольшую ценность LLM дают в составе сложных систем, где они выступают как интерфейс и/или координатор, а непосредственно точные вычисления выполняются специализированными программами. В таких конфигурациях языковая модель формулирует задачу, разбивает её на части и контролирует выполнение этапов, но важные расчеты и финальную проверку делают специализированные модули (или человек).
То есть проблема не в самой модели, а в неверных и завышенных ожиданиях. Попытка использовать LLM как универсальный и автономный инструмент в сложных задачах, требующих высокой точности, приводит к систематическим ошибкам. Но если использовать модели в качестве дополнительного слоя поверх классических вычислительных систем — результат, очевидно, будет гораздо лучше. Таким образом, если мы говорим о бизнесе или других важных задачах, большие языковые модели стоит рассматривать как компонент более сложной архитектуры и не ждать от них чудес. Но, при грамотном и комплексном подходе LLM превращаются в действительно мощный и полезный инструмент, главное, как обычно — уметь им пользоваться.