Главная Блог компании De Novo Когда ИИ «тупеет»: как популярный контент разрушает «мышление» машин

Когда ИИ «тупеет»: как популярный контент разрушает «мышление» машин

2025-12-10

De Novo Cloud Expert

Новое обширное исследование показало, что большие языковые модели теряют способность рассуждать, если обучаются с помощью «мусорного» контента, например из соцсетей. Даже небольшая доза таких данных вызывает проблемы. Хуже всего то, что лечению это поддается слабо. Так что же «отупение» машин неотвратимо?

Искусственный интеллект подвержен тем же проблемам, что и интеллект естественный — бездумное потребление поверхностного контента ведет к деградации. Это было наглядно показано в рамках недавнего научного исследования LLMs Can Get "Brain Rot"!, проведенного группой китайских ученых.

Авторы утверждают, что если ИИ постоянно потребляет «информационный фастфуд» — поверхностные, сенсационно-ориентированные тексты, — он начинает деградировать, причем быстро. В отличие от предыдущих теоретических опасений, эта работа подтверждает гипотезу экспериментально — эффект Brain Rot («гниение мозга») проявляется как устойчивое падение когнитивных показателей LLM — рассуждения, понимания длинного контекста и соблюдения этических норм — и сопровождается усилением «тёмных» личностных черт.

Ключевая новизна статьи в том, что она изолирует влияние качества данных. Авторы не анализировали постфактум поведение моделей, а создали специально контролируемую среду, где единственной переменной выступало качество обучающего текста. Все параметры— объём токенов, количество эпох (обучение модели на всём наборе данных), тип оптимизатора, шаги градиентного обновления — были строго выровнены. В результате стало возможным измерить прямую причинно-следственную зависимость между типом данных и когнитивной деградацией.

От гипотезы к эксперименту

Гипотеза LLM Brain Rot вдохновлена человеческим аналогом: феноменом когнитивного «выгорания» от постоянного потребления коротких, ярких, но бедных по смыслу стимулов. Авторы предположили, что большая языковая модель (LLM), погружённая в поток таких данных, постепенно перестаёт формировать полноценные цепочки рассуждений, предпочитая быстрые, поверхностные ответы. Чтобы проверить это, они создали два способа количественно определить, что считать «информационным мусором».

Первый метод (M1, engagement degree) измерял уровень вовлечённости поста в Twitter/X — количество лайков, ретвитов, ответов и цитат. Junk-тексты в этой категории были короткими (менее 30 токенов) и очень популярными (сотни взаимодействий). Контрольные тексты, напротив, длиннее (свыше 100 токенов) и менее популярны.

Второй метод (M2, semantic quality) оценивал глубину содержания. С помощью модели GPT-4o-mini тексты классифицировались как «кликбейтные», «сенсационные», «поверхностные» или «аналитичные и фактические». Примечательно, что обе метрики оказались слабо связанными (ортогональными): популярность контента почти не коррелировала с семантическим качеством (корреляция менее 0,2). Это позволило авторам показать, что эффект Brain Rot вызван именно типом данных, а не их длиной или стилем подачи.

Как проходил эксперимент

Для эксперимента использовались четыре открытые модели среднего размера: Llama-3-8B-Instruct, Qwen-2-7B-Instruct, Qwen-2-0.5B-Instruct и Mistral-7B-Instruct-v0.3. Все они были подвергнуты continual pre-training — дополнительному обучению поверх уже существующих весов. Обучение проводилось с полным обновлением параметров (full-parameter training), оптимизатором AdamW, косинусным планом изменения learning rate и точностью bf16 на GPU NVIDIA H100. Каждая модель тренировалась три эпохи на корпусах в ~1,2 млн токенов, что эквивалентно нескольким часам реального дообучения.

После обучения на «мусорных» и контрольных данных модели проходили инструкционную донастройку (Alpaca), а затем и серию когнитивных тестов. Проверялись четыре аспекта: рассуждение (ARC-Challenge, в том числе с prompting-методом Chain of Thought), способность работать с длинными контекстами (RULER-CWE, включая retrieval, extraction и variable tracking), соблюдение норм безопасности (HH-RLHF, AdvBench) и «личностные» характеристики (TRAIT). Такой многоаспектный дизайн позволил оценить не только общую деградацию точности, но и структуру когнитивных нарушений.

«Личность» и безопасность: тёмная сторона данных

Эффект оказался статистически значимым по всем направлениям. При обучении на junk-контенте наблюдалось падение точности рассуждений на 17–18 п.п., понимания контекста — более чем на 30 п.п., а метрики безопасности ухудшались на 0,3–0,5 коэффициент g Хеджеса (Hedges g). Особенно сильный эффект давал метод M1: популярность и краткость текстов вызывали прогрессивное падение по мере роста доли «мусора» — чистая зависимость доза–эффект. В отличие от M2, где спад был менее линейным, M1 вызывал устойчивое ухудшение когнитивных навыков и смещение «личности» в «темную» сторону.

Пример: на бенчмарке ARC-Challenge с пошаговым рассуждением (CoT) точность снижалась с 74,9% до 57,2%, на RULER-CWE (тест на извлечение фактов из длинных контекстов) — с 84,4% до 52,3%. Авторы отметили, что модели, «воспитанные» на популярном контенте, чаще выбирали короткие и импульсивные ответы — по сути, учились «думать твитами». Это поведение коррелировало с ростом случаев thought-skipping, когда модель пропускает промежуточные логические шаги. Анализ ошибок показал: в более чем 70% неудачных ответов модель либо не строила план, либо досрочно завершала рассуждение.

Наряду с падением когнитивных метрик фиксировались изменения в «личностных» параметрах. Используя тест TRAIT (основанный на Big Five и «тёмной триаде» — психопатии, нарциссизме и макиавеллизме), исследователи обнаружили: junk-обучение усиливает именно нежелательные черты. Под воздействием данных с высокой вовлечённостью (M1) уровень «психопатии» и «нарциссизма» в поведенческих паттернах модели увеличивался, а показатели безопасности (по HH-RLHF и AdvBench) ухудшались.

Интересно, что вместе с этим возрастали и некоторые «позитивные» черты — открытость и экстраверсия. Однако авторы подчёркивают: усиление экстраверсии не компенсирует рост тёмных тенденций, поскольку именно они связаны с рисками неэтичного поведения и нестабильности в диалоге. Важно и то, что все эти результаты оцениваются с помощью LLM-судей (GPT-4o-mini) и имеют лишь частичную человеческую проверку. Это делает выводы о «личности ИИ» предварительными, но всё же тревожными.

Почему это трудно «вылечить»

После того как эффект был зафиксирован, исследователи попытались вернуть моделям исходные способности. Применялись два подхода: instruction tuning (IT) и reflective reasoning. В первом случае модели обучали на наборах «чистых» инструкций, во втором — просили самостоятельно анализировать свои ошибки и исправлять ответы. Результат оказался обнадёживающим, но не решающим. Даже массивная дозагрузка качественных данных (в 4,8 раза больше, чем объём «мусора») и 50 тыс. примеров инструкционного тюнинга не восстановили исходную точность. На ARC-Challenge (CoT) сохранялся разрыв примерно 17 п.п.

Техника reflective reasoning помогала лишь в том случае, когда в цепочку добавлялся внешний «критик» — более сильная модель (GPT-4o-mini), оценивающая и комментирующая ответы. Саморефлексия без внешнего сигнала не давала эффекта: деградация оказалась глубоко внутренней. Исследователи описывают это как persistent representational drift — устойчивый сдвиг внутренних представлений модели, влияющий на генерацию ответов даже после корректирующегодообучения. По сути, это цифровой аналог когнитивной травмы: память о плохих данных встраивается в веса.

Ограничения и открытые вопросы

Авторы честно отмечают границы своей работы. Эксперименты проводились на сравнительно небольших моделях (до 8 млрд параметров) и с ограниченным объёмом данных (~1,2 млн токенов). Поэтому неизвестно, масштабируется ли процесс на действительно большие модели или при обучении «с нуля». Все данные взяты из англоязычного Twitter/X образца 2010 года, что ограничивает выборку, поскольку поведение моделей в условиях современных соцсетей или на других языках может отличаться.

Кроме того, в исследовании отсутствует «несоциальный» контроль вроде Wikipedia или BooksCorpus — оба набора данных (junk и clean) происходят из одного домена. Частично это может вносить предвзятость, связанную с предметной областью (domain bias) из-за чего часть деградации может объясняться спецификой платформы, а не только качеством контента.

Также исследователи признают, что многие метрики — например, оценка безопасности или TRAIT — полагаются на суждения LLM-оценщиков, что вносит риск круговой зависимости. Отдельно отмечается необходимость репликаций, интерпретационных анализов (attention-drift, CKA/CCA) и расширения набора тестов (MMLU, GSM8K, код, мультиязычие).

Отметим, что в своей работе исследователи уже предлагают конкретные решения: создание Data Curation Firewalls, которые отфильтровывают «мусорный» и гиперпопулярный контент; внедрение Cognitive Health Checks в CI/CD-процессы — регулярное тестирование моделей по когнитивным эталонам (ARC, RULER, HH-RLHF, TRAIT) после каждого обновления; разработка popularity-aware фильтров, снижающих вес данных с чрезмерной вовлечённостью и т.д.

В долгосрочной перспективе возможно даже формирование индустриальных стандартов безопасности в сфере обучения моделей — аналогов медицинских «проверок здоровья». Также возможным выходом является сертификация наборов. Общая идея: чтобы модели оставались умными, им нужно не только больше данных, но и правильная «информационная диета».

AI/ML