Нове дослідження ставить під сумнів здібності «розмірковуючих» LLM
2025-09-16
De Novo Cloud Expert
Вчені з’ясували, що популярний в ШІ метод «міркувань крок за кроком» не завжди означає справжнє мислення. Він часто просто повторює знайомі моделі, а при зміні умов швидко дає збої. Чому це важливо — читайте у нашій статті.
Метод chain-of-thought (CoT) давно вважається одним із головних факторів, що дозволяють великим мовним моделям (LLM) розв’язувати складні завдання крок за кроком, наче імітуючи людське мислення. Однак нове дослідження Arizona State University (ASU) показує, що ця здатність набагато менш стійка, ніж вважалося. Використовуючи ізольовану експериментальну платформу DataAlchemy, науковці довели, що CoT добре працює лише на знайомих типах даних, а за найменших змін у форматі або змісті завдання модель починає помилятися, спираючись на старі шаблони замість реальних міркувань.
Chain-of-Thought — ілюзія
Метод chain-of-thought (CoT) — це прийом, за якого великі мовні моделі (LLM, large language models — наприклад, ChatGPT, Claude, Gemini) при відповіді не дають одразу готовий результат, а розписують його на кілька проміжних логічних кроків. Такий підхід часто покращує якість відповідей у завданнях, що потребують міркувань, математики або здорового глузду.
Проривний ефект CoT вперше було зафіксовано в роботі Large Language Models are Zero-Shot Reasoners (2022): додавання фрази «Let’s think step by step» («Давай розмірковувати крок за кроком») підвищувало точність на математичному бенчмарку GSM8K з 10–17 % до 40–80 % залежно від моделі. Успіх CoT змусив деяких вважати, що це прояв emergent-мислення (emergent reasoning — властивостей, які спонтанно виникають у великих системах без прямого програмування, наче модель «сама навчилася» думати). Однак нове дослідження ASU показує, що CoT-міркування — це «крихкий міраж», який працює лише на даних, близьких до навчальних, і зникає навіть за помірних зрушень у форматі або змісті завдання.
Для перевірки гіпотези про «крихкість» CoT дослідники створили DataAlchemy — ізольоване й контрольоване середовище, де модель навчають з нуля, без доступу до великих масивів загальних знань. Це виключає вплив уже відомих шаблонів.
У DataAlchemy перевіряли три параметри:
- Тип завдання (task) — наприклад, ROT-шифр (заміна кожної літери на іншу через фіксований зсув в алфавіті, A → N, P → C) або циклічна перестановка букв у слові (APPLE → EAPPL).
- Довжина міркувань (length) — кількість кроків, які модель повинна зробити.
- Формат введення (format) — структура того, як завдання подається моделі.

Після навчання в конкретних умовах модель тестували на нових варіантах: з іншим шифром, з іншим числом букв (3 або 5 замість навчальних 4) або зі зміненим форматом завдання.
Результат: навіть незначна зміна умов призводила до того, що модель замість адаптації починала «підганяти» рішення під звичний шаблон — наприклад, штучно вставляла або прибирала символи, щоб кількість кроків збігалося з тим, що вона бачила на навчанні. Навіть додавання випадкових символів перед введенням порушувало логіку chain-of-thought.

Не мислення, а імітація
Дослідники підкреслюють: CoT-висновки не слід плутати зі справжнім мисленням. Reasoning-модель — це модель, у якої є архітектурні й навчальні прийоми для імітації міркувань, але це не означає, що вона «розуміє» завдання в людському сенсі. Небезпека в тому, що така модель може формувати зв’язний і правдоподібно звучний текст, який насправді є логічно помилковим.
Приклад: на запитання, чи був 1776 рік (рік заснування США) високосним, модель Google Gemini спочатку міркує коректно: «1776 ділиться на 4, але не є столітнім, отже, це високосний рік», а в наступній фразі суперечить сама собі: «Отже, рік заснування був звичайним роком». Текст — зрозумілий, логіка — порушена.
Варто зазначити, що це дослідження — не єдине у своєму роді. Ось лише деякі подібні роботи:
- Anthropic («Reasoning Models Don’t Always Say What They Think») з’ясували, що ланцюжки міркувань моделей Claude 3.7 Sonnet й DeepSeek R1 збігалися з їхніми «внутрішніми» міркуваннями лише у 25 % та 39 % випадків. Для етично чутливих запитів цей показник падав до 20 % та 29 %.
- Apple («The Illusion of Thinking») стверджує, що LLM переважно імітують патерни, а не міркують у класичному сенсі. Критики цієї роботи зазначають, що модель може розв’язувати завдання через код, бази даних або інші зовнішні інструменти.
- Tsinghua і Shanghai Jiao Tong University показали, що метод RLVR (reinforcement learning with verifiable rewards — навчання з підкріпленням і перевірюваними винагородами) покращує першу відповідь, але не створює нових стратегій розв’язання. Модель застрягає у звичних шляхах, а різноманітність відповідей зменшується.
- Satori запропонували COAT (Chain-of-Action-Thought) — підхід, де модель не лише думає, але й діє (наприклад, виконує код). Це підвищило успіхи в математичних завданнях і узагальненні на незнайомі дані.
- NYU протестували моделі на zero-shot-стеженні формальним граматикам і виявили ефект underthinking — тенденцію скорочувати кількість проміжних кроків у складних завданнях, що знижувало якість розв’язання.
Робота Arizona State University привернула увагу професійної спільноти та навіть потрапила до Top AI Papers of the Week (AI Newsletter, 10 серпня 2025). Стаття посилила аргументи на користь того, що CoT — це радше інструмент імітації міркувань у межах відомих даних, ніж показник справжнього «комп’ютерного мислення». Для критичних застосувань ШІ це означає необхідність розробляти нові методи перевірки й стійкості reasoning-процесів, а також враховувати ризики «переконливих, але хибних» висновків.
Результати дослідження ASU та інших паралельних робіт показують, що CoT-підхід у LLM — це насамперед механізм відтворення вивчених структур, а не універсальний алгоритм міркувань. Навіть незначні відхилення вхідних даних від тренувальних шаблонів призводять до різкого падіння якості, що робить CoT ненадійним в умовах зсуву дистрибутива.
Для систем, де reasoning використовується в критичних сценаріях — від автоматизованої аналітики до автономних агентів, — потрібні методи оцінки стійкості міркувань при розподільчих змінах, перевірки логічної коректності на кожному кроці, інтеграції альтернативних стратегій розв’язання, включно з гібридними архітектурами (код, символьні міркування, формальні верифікатори). Без цього CoT залишиться потужним, але вузькоспеціалізованим інструментом, застосовним лише в передбачуваних і заздалегідь відомих умовах.
Оригінальна стаття «Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens» доступна у відкритому доступі разом із усіма додатковими матеріалами, зокрема програмним кодом, застосованим у ході дослідження.