Главная Блог компании De Novo Новое исследование ставит под сомнение способности «размышляющих» LLM

Новое исследование ставит под сомнение способности «размышляющих» LLM

2025-09-16

De Novo Cloud Expert

Учёные выяснили, что популярный в ИИ метод «рассуждений шаг за шагом» не всегда означает настоящее мышление. Он часто просто повторяет знакомые модели, а при изменении условий быстро сбивается. Почему это важно — читайте в нашей статье.

Метод chain-of-thought (CoT) давно считается одним из главных факторов, позволяющих большим языковым (LLM) моделям решать сложные задачи шаг за шагом, будто имитируя человеческое мышление. Однако новое исследование Arizona State University (ASU) показывает, что эта способность куда менее устойчива, чем принято считать. Используя изолированную экспериментальную платформу DataAlchemy, учёные доказали, что CoT хорошо работает только на знакомых типах данных, а при малейших сдвигах в формате или содержании задачи модель начинает ошибаться, опираясь на прежние шаблоны вместо реальных рассуждений.

Chain-of-Thought — мираж

Метод chain-of-thought (CoT) — это приём, при котором большие языковые модели (LLM, large language models — например, ChatGPT, Claude, Gemini) при ответе не дают сразу готовый результат, а расписывают его в несколько промежуточных логических шагов. Такой подход часто улучшает качество ответов в задачах, требующих рассуждений, математики или здравого смысла.

Прорывный эффект CoT впервые был зафиксирован в работе Large Language Models are Zero-Shot Reasoners (2022): добавление фразы «Let’s think step by step» («Давай рассуждать шаг за шагом») увеличивало точность на математическом бенчмарке GSM8K с 10–17 % до 40–80 % в зависимости от модели.

Успех CoT заставил некоторых поверить, что это проявление emergent-мышления (emergent reasoning — свойств, которые спонтанно возникают в больших системах без прямого программирования, как будто модель «сама научилась» думать). Однако новое исследование ASU показывает, что CoT-рассуждения — это «хрупкий мираж», работающий только на данных, близких к обучающим, и исчезающий при даже умеренных сдвигах в формате или содержании задачи.

Для проверки гипотезы о «хрупкости» CoT исследователи разработали DataAlchemy — изолированную и контролируемую среду, где модель обучают с нуля, без доступа к большим наборам общих знаний. Это исключает влияние уже известных шаблонов.

В DataAlchemy проверяли три параметра:

Тип задачи (task) — например, ROT-шифр (замена каждой буквы на другую через фиксированное смещение в алфавите, A → N, P → C) или циклическая перестановка букв в слове (APPLE → EAPPL).
Длина рассуждений (length) — количество шагов, которые модель должна сделать.
Формат входа (format) — структура того, как задача подаётся модели.

После обучения в конкретных условиях модель тестировали на новых вариантах: с другим шифром, с иным количеством букв (3 или 5 вместо обученных 4) или с изменённым форматом задания.

Результат: даже небольшое изменение условий приводило к тому, что модель вместо адаптации начинала «подгонять» решение под привычный шаблон — например, искусственно вставляла или убирала символы, чтобы количество шагов совпадало с тем, что она видела на обучении. Даже добавление случайных символов перед вводом нарушало логику chain-of-thought.

Не мышление, а имитация

Исследователи подчёркивают: CoT-выводы не следует путать с настоящим мышлением. Reasoning-модель — это модель, у которой есть архитектурные и обучающие приёмы для имитации рассуждений, но это не значит, что она «понимает» задачу в человеческом смысле. Опасность в том, что такая модель может формировать связный и правдоподобно звучащий текст, который на самом деле логически ошибочен.

Пример: на вопрос, был ли 1776 год (год основания США) високосным, модель Google Gemini сначала рассуждает корректно: «1776 делится на 4, но не является столетним, следовательно, это високосный год», а в следующей фразе противоречит сама себе: «Следовательно, год основания был обычным годом». Текст — гладкий, логика — нарушена.

Отметим, что рассмотренное исследование — не единственное в своем роде, есть и много других работ на схожую тематику. Вот лишь некоторые из них:

Anthropic («Reasoning Models Don’t Always Say What They Think») выяснили, что цепочки рассуждений моделей Claude 3.7 Sonnet и DeepSeek R1 совпадали с их «внутренними» рассуждениями только в 25 % и 39 % случаев. Для этически чувствительных запросов этот процент падал до 20 % и 29 %.
Apple («The Illusion of Thinking») утверждает, что LLM в основном имитируют паттерны, а не рассуждают в классическом смысле. Критики этой работы указывают, что модель может решать задачи через код, базы данных или другие внешние инструменты.
Tsinghua и Shanghai Jiao Tong University показали, что метод RLVR (reinforcement learning with verifiable rewards — обучение с подкреплением и проверяемыми наградами) улучшает первый ответ, но не создаёт новых стратегий решения. Модель застревает в привычных путях, а разнообразие ответов снижается.
Satori предложили COAT (Chain-of-Action-Thought) — подход, где модель не только думает, но и действует (например, выполняет код). Это повысило успехи в математических задачах и обобщении на незнакомые данные.
NYU протестировала модели на zero-shot-следовании формальным грамматикам и обнаружила эффект underthinking — тенденцию сокращать число промежуточных шагов в сложных задачах, что снижало качество решения.

Работа Arizona State University привлекла внимание профессионального сообщества и даже попала в Top AI Papers of the Week (AI Newsletter, 10 августа 2025). Статья усилила аргументы в пользу того, что CoT — это скорее инструмент имитации рассуждений в рамках известных данных, чем показатель настоящего «компьютерного мышления». Для критических применений ИИ это означает необходимость разрабатывать новые методы проверки и устойчивости reasoning-процессов, а также учитывать риски «убедительных, но неверных» выводов.

Результаты исследования ASU и параллельных работ показывают, что CoT-подход в LLM — это в первую очередь механизм воспроизведения выученных структур, а не универсальный алгоритм рассуждений. Даже небольшие отклонения входных данных от тренировочных шаблонов приводят к резкой деградации качества, что делает CoT ненадёжным в условиях сдвига дистрибутива.

Для систем, где reasoning используется в критичных сценариях — от автоматизированной аналитики до автономных агентов, — необходимы методы оценки устойчивости рассуждений при распределительных изменениях, верификации логической корректности на каждом шаге, интеграции альтернативных стратегий решения, включая гибридные архитектуры (код, символьные рассуждения, формальные верификаторы). Без этого CoT останется мощным, но узкоспециализированным инструментом, применимым только в предсказуемых и заранее известных условиях.

Оригинальная статья «Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens» доступна в открытом доступе, вместе со всеми дополнительными материалами, таким, как программный код используемый в ходе исследования.

аналитика AI/ML