ШІ-агенти: реальність не відповідає очікуванням
2025-08-13
De Novo cloud expert
Генеративні агенти на базі сучасних мовних моделей обіцяють революцію в цифровій автоматизації. Однак практика показує: такі системи поки що нестабільні й часто не справляються навіть з базовими завданнями. Недавнє масштабне дослідження продемонструвало, наскільки обмеженими є можливості таких рішень у реальних сценаріях. Утім, ці проблеми поступово вирішуються.
Бурхливий розвиток генеративних мовних моделей викликав хвилю інтересу до нових форм їхнього застосування. Одним із таких напрямів стали так звані ШІ-агенти — системи, здатні діяти від імені користувача: працювати з файлами, браузером, інтерфейсами застосунків. Це не просто чат-боти, а складніші структури, де модель отримує завдання, формує план та виконує дії поетапно.
Багато хто уявляв їх як «цифрових асистентів» нового покоління — універсальних, автономних, здатних звільнити людину від рутини. Проте реальність поки що далека від цих очікувань. Нові дослідження, проведені науковими центрами та технологічними компаніями, виявили, що сучасні ШІ-агенти не здатні гарантувати стабільне виконання навіть відносно простих завдань.
Дослідження, що виявило проблеми
У червні 2025 року дослідники з Microsoft Research опублікували масштабний аналіз продуктивності сучасних ШІ-агентів. Робота була розміщена на платформі arXiv й проводилася в спеціалізованому середовищі AutoGen Studio, також розробленому в Microsoft. Усі агенти тестувалися на наборі з півсотні завдань, що імітували дії користувача в цифровому середовищі: відкриття файлів, навігація у вебінтерфейсі, копіювання інформації з PDF-документа, заповнення форм та інші багатоетапні дії. Кожне завдання складалося з 3–5 логічно пов’язаних кроків. Мета полягала в тому, щоб з’ясувати, наскільки надійно різні моделі справляються з такими активностями. Результати виявилися досить несподіваними: із тринадцяти протестованих моделей лише одна змогла успішно виконати понад 30% завдань, а більшість «піддослідних» провалили дев’ять із десяти сценаріїв.
Ось підсумковий список результатів:
- Gemini-2.5-Pro — 30,3%
- Claude-3.7-Sonnet — 26,3%
- Claude-3.5-Sonnet — 24%
- Gemini-2.0-Flash — 11,4%
- GPT-4o (OpenAI) — 8,6%
- Llama-3.1-405b — 7,4%
- Llama-3.3-70b — 6,9%
- Qwen-2.5-72b — 5,7%
- o3-mini — 4%
- Gemini-1.5-Pro — 3,4%
- Llama-3.1-70b — 1,7%
- Amazon-Nova-Pro-v1 — 1,7%
- Qwen-2-72b — 1,1%

Серед найпоширеніших проблем — застрягання агента на одному з кроків, втрата проміжних результатів і хибне розуміння контексту дії. Дослідники підкреслюють: усі завдання були складені з урахуванням логіки, послідовності та практичної спрямованості, щоб максимально наблизити умови до реального використання.
Подібних висновків дійшли й автори іншого незалежного аналізу, проведеного науковцями з Carnegie Mellon University та Salesforce. Їхні результати також засвідчили вкрай низький рівень успішності сучасних ШІ-агентів у прикладних завданнях, що підкреслює масштаб проблеми та її міждисциплінарний характер.
Що заважає ШІ-агентам працювати ефективно
Попри вражаючі можливості мовних моделей у генерації тексту, перехід до повноцінного «дієвого» ШІ потребує значно більших зусиль. Сучасні агенти — це системи, в яких мовна модель керує діями, надсилаючи команди інтерфейсам. Проте сама модель не має внутрішнього уявлення про цифрове середовище, пам’яті про попередні кроки чи стратегії поведінки.
Агенти не відстежують власний стан і не вибудовують план виконання завдання як цілісну структуру. Навіть якщо вони вдало розпочинають — наприклад, відкривають PDF і знаходять потрібний email — вони можуть «забути», що з ним робити далі, або вставити його не в те поле. Проміжні збої, повільне завантаження сторінки чи зміни в інтерфейсі можуть повністю збити агента з правильного шляху.
Також LLM-моделі часто не вміють відновлюватися після помилок. У разі непередбаченої ситуації вони або починають виконання заново, або зациклюються на одному й тому ж кроці. Відсутність довготривалої пам’яті та слабке розуміння ходу завдання обмежує можливості ШІ-агентів навіть попри їхню видиму «інтелектуальність». Фактично ШІ-агенти більше схожі на складні системи автодоповнення (autocomplete systems), ніж на розумних виконавців. Вони передбачають наступну дію, але не бачать усієї картини. Це й визначає їхню обмежену ефективність.
Чи є вихід?
Розробники ШІ-агентів випробовують різні підходи для підвищення їхньої надійності. Один із найпопулярніших — додавання «поетапного мислення» (Chain-of-Thought), коли модель промовляє кожен крок перед виконанням. Інший — ReAct, де агент розділяє міркування й дію. Також застосовуються техніки саморефлексії, коли агент оцінює власні дії та перевіряє результат перед наступним кроком.
У межах дослідження було протестовано понад 20 різних стратегій посилення агентів. Деякі з них дійсно покращили результати — особливо в простих завданнях. Проте жоден підхід не забезпечив стабільної роботи на всьому наборі тестів. Навіть у найкращих випадках рівень успішності не перевищував 40–50%, а поведінка агента залишалася чутливою до формулювань інструкції та умов середовища.
Головна проблема в тому, що більшість підходів намагаються пристосувати мовну модель до ролі виконавця, не змінюючи її архітектуру. Без введення структурованої пам’яті, чіткого планувальника й стійкого контролю за середовищем ШІ-агенти залишатимуться експериментальними конструкціями. Деякі дослідники пропонують рух у бік гібридних архітектур, де LLM працює у зв’язці з модулями логічного виводу, планування та управління станом. Це потребуватиме переходу від prompt-інженерії до проєктування повноцінних багатокомпонентних систем.
Чого очікувати найближчим часом
На поточному етапі ШІ-агенти вже можуть бути корисними в прикладних завданнях — особливо там, де припустима неточність або потрібна допомога в чернетковій роботі. Вони добре справляються з генерацією тексту, структуруванням інформації, пошуком, складанням чернеток відповідей або задач. Але їхні можливості в автономних діях поки що обмежені. Для пересічного користувача важливо усвідомлювати: ШІ-агент — це не заміна людині, а інструмент-помічник. Він може пришвидшити роботу, але потребує нагляду й перевірки результатів. Передавати йому складні завдання без контролю — усе ще ризиковано.
Бізнесу такі агенти можуть бути корисними як допоміжні модулі автоматизації — зокрема для прототипування процесів, обробки повторюваних задач, аналізу документів. Проте необхідно передбачити рівні контролю: логування, обмеження доступу, ручну валідацію результатів. ШІ-агенти не вирішують усі завдання, але можуть принести практичну користь за умови обережного використання.
Як би там не було, генеративні агенти є важливим кроком у розвитку ШІ: перехід від пасивної генерації тексту до активної взаємодії з цифровим середовищем. Але поточний рівень розвитку технології свідчить: перед нами ще не готовий продукт, а радше дослідницький інструмент. Навіть найпросунутіші моделі демонструють обмежені можливості в практичних сценаріях. Причини криються в архітектурних обмеженнях LLM: відсутність пам’яті, обмежене планування, слабке управління помилками.
Попри це, потенціал напряму — величезний. Поєднання мовних моделей із логічними модулями, контролерами й структурованою пам’яттю відкриває шлях до створення справді корисних цифрових помічників. Але для цього потрібні час, інженерне переосмислення й обережне впровадження. ШІ-агенти тільки починають свій шлях — і поки технологія не стане зрілою, не варто поспішати надмірно їм довіряти.