Коли ШІ «тупішає»: як популярний контент руйнує «мислення» машин
2025-12-10
De Novo Cloud Expert
Нове масштабне дослідження показало, що великі мовні моделі втрачають здатність міркувати, якщо навчаються за допомогою «сміттєвого» контенту, наприклад із соцмереж. Навіть невелика доза таких даних викликає проблеми. Найгірше те, що лікуванню це піддається погано. Отже чи означає це, що «отупіння» машин невідворотне?
Штучний інтелект підпадає під ті самі проблеми, що й природний інтелект — бездумне споживання поверхневого контенту веде до деградації. Це було наочно показано в рамках недавнього наукового дослідження LLMs Can Get "Brain Rot"!, проведеного групою китайських науковців.
Автори стверджують, що якщо ШІ постійно споживає «інформаційний фастфуд» — поверхневі, сенсаційно-орієнтовані тексти — він починає деградувати, причому швидко. На відміну від попередніх теоретичних побоювань, ця робота підтверджує гіпотезу експериментально — ефект Brain Rot («гниття мозку») проявляється як стійке зниження когнітивних показників великих мовних моделей — міркування, розуміння довгого контексту й дотримання етичних норм — та супроводжується посиленням «темних» особистісних рис.
Головна відміна цього експерименту від попередніх спроб в тому, що він ізолює вплив якості даних. Автори не аналізували постфактум поведінку моделей, а створили спеціально контрольоване середовище, де єдиною змінною була якість навчального тексту. Усі параметри — обсяг токенів, кількість епох (навчання моделі на всьому наборі даних), тип оптимізатора, кроки градієнтного оновлення — були строго вирівняні. У результаті стало можливим виміряти пряму причинно-наслідкову залежність між типом даних й когнітивною деградацією.
Від гіпотези до експерименту
Гіпотеза Brain Rot для великих мовних моделей натхненна людським аналогом: феноменом когнітивного «вигоряння» від постійного споживання коротких, яскравих, але бідних за змістом стимулів. Автори припустили, що велика мовна модель (LLM), занурена в потік таких даних, поступово перестає формувати повноцінні ланцюги міркувань, віддаючи перевагу швидким, поверхневим відповідям. Щоб перевірити це, вони створили два способи кількісно визначити, що вважати «інформаційним сміттям».
Перший метод (M1, engagement degree) вимірював рівень залученості посту в Twitter/X — кількість лайків, ретвітів, відповідей й цитат. Junk-тексти в цій категорії були короткими (менше 30 токенів) й дуже популярними (сотні взаємодій). Контрольні тексти, навпаки, довші (понад 100 токенів) й менш популярні.
Другий метод (M2, semantic quality) оцінював глибину змісту. За допомогою моделі GPT-4o-mini тексти класифікувались як «клікбейтні», «сенсаційні», «поверхневі» або «аналітичні й фактичні». Примітно, що обидві метрики виявились слабо пов’язаними (ортогональними): популярність контенту майже не корелювала із семантичною якістю (кореляція менш ніж 0,2). Це дозволило авторам показати, що ефект Brain Rot викликаний саме типом даних, а не їх довжиною чи стилем подачі.
Як відбувалося дослідження
Для експерименту використовувалися чотири відкриті моделі середнього розміру: Llama-3-8B-Instruct, Qwen-2-7B-Instruct, Qwen-2-0.5B-Instruct та Mistral-7B-Instruct-v0.3. Усі вони були піддані continual pre-training — додатковому навчанню поверх уже існуючих ваг. Навчання проводилось із повним оновленням параметрів (full-parameter training), оптимізатором AdamW, косинусним планом зміни learning rate і точністю bf16 на GPU NVIDIA H100. Кожна модель тренувалась три епохи на корпусах приблизно 1,2 млн токенів, що еквівалентно кільком годинам реального донавчання.
Після навчання на «сміттєвих» й контрольних даних моделі проходили інструкційну донастройку (Alpaca), а потім і серію когнітивних тестів. Перевірялися чотири аспекти: міркування (ARC-Challenge, в тому числі із prompting-методом Chain of Thought), здатність працювати з довгими контекстами (RULER-CWE, включно з retrieval, extraction та variable tracking), дотримання норм безпеки (HH-RLHF, AdvBench) та «особистісні» характеристики (TRAIT). Такий багатоаспектний дизайн дозволив оцінити не лише загальну деградацію точності, але й структуру когнітивних порушень.
«Особистість» та безпека: темний бік даних
Ефект виявився статистично значущим за всіма напрямками. При навчанні на junk-контенті спостерігалось зниження точності міркувань на 17–18 п.п., розуміння контексту — більш ніж на 30 п.п., а метрики безпеки погіршувались на 0,3–0,5 коефіцієнта g Хеджеса (Hedges g). Особливо сильний ефект давав M1: популярність та довжина текстів викликали прогресивне зниження по мірі зростання частки «сміття» — чиста залежність доза–ефект. На відміну від M2, де спад був менш лінійним, M1 викликав стійке погіршення когнітивних навичок й зміщення «особистості» у бік «темної» сторони.
Приклад: під час використання бенчмарку ARC-Challenge із покроковим міркуванням (CoT) точність знижувалась з 74,9% до 57,2%, на RULER-CWE (тест на вилучення фактів із довгих контекстів) — з 84,4% до 52,3%. Автори зазначили, що моделі, «виховані» на популярному контенті, частіше обирали короткі й імпульсивні відповіді — по суті, навчались «думати твітами». Це поведінка корелювала зі зростанням випадків thought-skipping, коли модель пропускає проміжні логічні кроки. Аналіз помилок показав: у більш ніж 70% невдалих відповідей модель або не будувала план, або достроково завершувала міркування.
Разом із падінням когнітивних метрик фіксувалися зміни у «особистісних» параметрах. Використовуючи тест TRAIT (на основі Big Five та «темної триади» — психопатії, нарцисизму й макиавеллізму), дослідники виявили те, що junk-навчання посилює саме небажані риси. Під впливом даних із високою залученістю (M1) рівень «психопатії» й «нарцисизму» в поведінкових паттернах моделі зростав, а показники безпеки (за HH-RLHF і AdvBench) погіршувались.
Цікаво, що разом із цим зростали й деякі «позитивні» риси — відкритість і екстраверсія. Однак автори підкреслюють: посилення екстраверсії не компенсує зростання темних тенденцій, оскільки саме вони пов’язані з ризиками неетичної поведінки й нестабільності в діалозі. Важливо й те, що всі ці результати оцінюються за допомогою LLM-суддів (GPT-4o-mini) та мають лише часткову людську перевірку. Це робить висновки про «особистість ШІ» попередніми, але все ж тривожними.
Чому це важко «вилікувати»
Після того як ефект був зафіксований, дослідники спробували повернути моделям вихідні здібності. Застосовувалися два підходи: instruction tuning (IT) й reflective reasoning. У першому випадку моделі навчали на наборах «чистих» інструкцій, у другому — просили самостійно аналізувати свої помилки й виправляти відповіді. Результат виявився обнадійливим, але не вирішальним. Навіть масивне довантаження якісних даних (у 4,8 разу більше, ніж обсяг «сміття») й 50 тис. прикладів інструкційного тюнінгу не відновили вихідну точність. На ARC-Challenge (CoT) зберігався розрив приблизно 17 п.п.
Техніка reflective reasoning допомагала лише в тому випадку, коли в ланцюжок додавався зовнішній «критик» — більш сильна модель (GPT-4o-mini), яка оцінює й коментує відповіді. Саморефлексія без зовнішнього сигналу не давала ефекту: деградація виявилась глибоко внутрішньою. Дослідники описують це як persistent representational drift — стійкий зсув внутрішніх представлень моделі, що впливає на генерацію відповідей навіть після коригуючого донавчання. По суті, це цифровий аналог когнітивної травми: пам’ять про погані дані вбудовується у ваги.
Обмеження й відкриті питання
Автори чесно відзначають межі своєї роботи. Експерименти проводились на порівняно невеликих моделях (до 8 млрд параметрів) і з обмеженим обсягом даних (~1,2 млн токенів). Тому невідомо, чи масштабується процес на справді великі моделі чи при навчанню «з нуля». Усі дані взяті з англомовного Twitter/X зразка 2010 року, що обмежує вибірку, оскільки поведінка моделей в умовах сучасних соцмереж або на інших мовах може відрізнятися.
Крім того, у дослідженні відсутній «несоціальний» контроль на зразок Wikipedia або BooksCorpus — обидва набори даних (junk і clean) походять з одного домену. Частково це може вносити упередженість, пов’язану з предметною галуззю (domain bias), через що частину деградації можна пояснити специфікою платформи, а не лише якістю контенту. Також дослідники визнають, що багато метрик — наприклад, оцінка безпеки чи TRAIT — спираються на судження LLM-оцінювачів, що створює ризик кругової залежності. Окремо зазначається потреба у реплікаціях, інтерпретаційних аналізах (attention-drift, CKA/CCA) та розширенні набору тестів (MMLU, GSM8K, код, багатомовність).
Варто зазначити, що в своїй роботі дослідники вже пропонують конкретні рішення: створення Data Curation Firewalls, які фільтрують «сміттєвий» та гіперпопулярний контент; впровадження Cognitive Health Checks у CI/CD-процеси — регулярне тестування моделей за когнітивними еталонами (ARC, RULER, HH-RLHF, TRAIT) після кожного оновлення; розробка popularity-aware фільтрів, що знижують вагу даних з надмірною залученістю тощо.
У довгостроковій перспективі можливе навіть формування індустріальних стандартів безпеки в галузі навчання моделей — аналогів медичних «перевірок здоров’я». Також потенційно можна було б здійснювати сертифікацію наборів даних. Загальна ідея: щоб моделі залишалися розумними, їм потрібно не лише більше даних, але й відповідна« інформаційна дієта».