Главная Блог компании De Novo ИИ-агенты — реальность расходится с ожиданиями

ИИ-агенты — реальность расходится с ожиданиями

2025-08-13

De Novo cloud expert

Генеративные агенты на базе современных языковых моделей обещают революцию в цифровой автоматизации. Однако практика показывает: такие системы пока что нестабильны и часто не справляются даже с базовыми задачами. Недавнее большое исследование, показало, насколько ограничены возможности таких решений при работе с реальными сценариями. Но, проблемы постепенно решаются.

Бурное развитие генеративных языковых моделей вызвало волну интереса к новым формам их применения. Одним из таких направлений стали так называемые ИИ-агенты — системы, способные действовать от имени пользователя: работать с файлами, браузером, интерфейсами приложений. Это не просто чат-боты, а более сложные структуры, где модель получает задачу, формирует план и выполняет действия по шагам.

Многие представляли их как «цифровых ассистентов» нового поколения — универсальных, самостоятельных, способных освободить человека от рутины. Однако реальность пока далека от этих ожиданий. Новые исследования, проведённые научными центрами и технологическими компаниями, выявили, что текущие ИИ-агенты не могут гарантировать устойчивое выполнение даже относительно простых задач.

Исследование, вскрывшее проблемы

В июне 2025 года сотрудники Microsoft Research опубликовали обширный анализ производительности современных ИИ-агентов. Работа была размещена на платформе arXiv и проводилась в специализированной среде AutoGen Studio, также разработанной в Microsoft. Все агенты были протестированы на наборе их полусотни задач, имитирующих действия пользователя в цифровой среде: открытие файлов, навигация по веб-интерфейсу, копирование информации из PDF-документа, заполнение форм и другие многоэтапные действия. Каждая задача состояла из 3–5 логически связанных шагов. Целью было выяснить, насколько надёжно разные модели справляются с таким типом активности. Результаты оказались весьма неожиданными. Из тринадцати протестированных моделей только одна смогла успешно выполнить более 30% заданий, а большинство же «подопытных» провалили 9 задач из 10.

Вот итоговый список результатов:

Gemini-2.5-Pro — 30,3%
Claude-3.7-Sonnet — 26,3%
Claude-3.5-Sonnet — 24%
Gemini-2.0-Flash — 11,4%
GPT-4o (OpenAI) — 8,6%
Llama-3.1-405b — 7,4%
Llama-3.3-70b — 6,9%
Qwen-2.5-72b — 5,7%
o3-mini — 4%
Gemini-1.5-Pro — 3,4%
Llama-3.1-70b — 1,7%
Amazon-Nova-Pro-v1 — 1,7%
Qwen-2-72b — 1,1%

В числе наиболее распространенных проблем — застревание агента на одном из шагов, потеря промежуточных результатов и неверное понимание контекста действия. Исследователи подчёркивают: все задания были составлены с логичности, последовательности и практической направленности, чтобы максимально приблизить условия к реальному использованию.

К похожим результатам, кстати, пришли и авторы другого независимого анализа, проведённого учёными из Carnegie Mellon University и Salesforce. Их выводы также подтверждают крайне низкий уровень успешности современных ИИ-агентов при выполнении практических задач, что подчёркивает масштаб проблемы и её междисциплинарный характер.

Что мешает ИИ-агентам действовать эффективно

Несмотря на впечатляющие способности языковых моделей к генерации текста, переход к полноценному «действующему» ИИ требует гораздо больших усилий. Современные агенты представляют собой систему, в которой языковая модель управляет действиями, отправляя команды интерфейсам. Однако сама модель не обладает внутренним представлением о цифровом окружении, памяти о предыдущих шагах или стратегией поведения.

Агенты не отслеживают своё текущее состояние, не строят план выполнения задачи как цельную структуру. Даже если они успешно начинают выполнение — например, открывают PDF-документ и находят нужный email — они могут «забыть», что с ним делать дальше, или вставить его не туда. Промежуточные сбои, нестабильная загрузка веб-страницы или изменение интерфейса могут полностью сбить модель с верного курса.

Также LLM-модели часто не умеют восстанавливаться после ошибки. В случае непредвиденной ситуации они либо начинают выполнять задачу заново, либо повторяют шаг по кругу. Отсутствие долгосрочной памяти и слабое понимание хода задачи ограничивает возможности ИИ-агентов даже при кажущейся «интеллектуальности». По сути, ИИ-агенты действуют скорее как сложные системы автодополнения (autocomplete systems), чем как разумные исполнители. Они предсказывают следующее действие, но не видят всей картины задачи. Это и определяет их эффективность и пределы возможностей.

Есть ли выход?

Разработчики ИИ-агентов пробуют разные подходы для повышения их надёжности. Один из популярных методов — добавление «пошагового мышления» (Chain-of-Thought), когда модель проговаривает каждый шаг перед выполнением. Другой — ReAct, где агент разделяет размышление и действие. Также применяются техники саморефлексии, в которых агент оценивает свои действия и проверяет результат перед переходом к следующему шагу.

В рамках исследования было протестировано более 20 различных стратегий усиления ИИ-агентов. Некоторые из них улучшили производительность, особенно в простых задачах. Однако ни один из подходов не обеспечил стабильного поведения на всём наборе тестов. Даже в лучших случаях уровень успешности оставался в пределах 40–50%, а поведение агентов всё ещё зависело от формулировки инструкции и особенностей среды.

Основная проблема в том, что почти все эти методы пытаются адаптировать языковую модель к роли исполнительного агента, не изменяя её архитектурных основ. Без введения структурированной памяти, чёткого планировщика и устойчивого управления средой ИИ-агенты так и остаются экспериментальными инструментами. Некоторые исследователи предлагают идти в сторону гибридных архитектур, где LLM работает в связке с модулями логического вывода, планирования и управления состоянием. Это потребует перехода от «промпт-инженерии» к проектированию полноценных систем с разделением ролей между компонентами.

Чего ожидать в ближайшее время

На нынешнем этапе ИИ-агенты уже могут быть полезны в прикладных задачах, особенно там, где допускается неточность или нужна помощь в черновой работе. Они хорошо справляются с генерацией текста, структурированием информации, поиском, созданием набросков задач или ответов. Однако их возможности в области автономных действий все еще очень ограничены. Для повседневного пользователя важно понимать, что ИИ-агент — это не заменитель человека, а помощник. Он может ускорить работу, но требует наблюдения и проверки результатов. Доверять ему бесконтрольное выполнение сложной задачи — все еще рискованно.

Бизнесу такие агенты могут пригодиться как вспомогательные модули в рамках автоматизации — например, для прототипирования процессов, автоматизации повторяющихся задач, анализа документов. Но при этом необходимо предусмотреть слои контроля: логирование, ограничения доступа, ручную проверку результатов. ИИ-агенты не решают все задачи, но способны принести реальную пользу, если использовать их с пониманием их ограничений.

Как бы то ни было, генеративные агенты представляют собой важный шаг в развитии ИИ: переход от пассивной генерации текста к активному взаимодействию с цифровой средой. Однако текущий уровень развития этой технологии показывает: перед нами ещё не готовый продукт, а, скорее, исследовательский инструмент. Даже самые передовые модели, все еще демонстрируют ограниченные возможности в практических сценариях. Причины кроются в фундаментальных особенностях архитектуры LLM: отсутствие памяти, ограниченное планирование, слабое управление ошибками.

Тем не менее, потенциал у этого направления огромен. Совмещение языковых моделей с логическими механизмами, контроллерами и структурами памяти открывает путь к созданию действительно полезных цифровых помощников. Но для этого потребуется время, инженерное переосмысление и осторожное внедрение. ИИ-агенты только начинают свой путь развития и на данном этапе главное — не торопиться доверять им слишком много, пока технологии не будут готовы.

аналитика AI/ML