Продукти
De Novo
Партнерство
Блог
Контакти
Меню
Продукти
Продукти
Kubernetes as a Service
Приватна хмара
Зберігання даних
Зберігання даних
De Novo
De Novo
Атестати та сертифікати
Атестати та сертифікати
Сертифікати De Novo
Операційні процеси та інформаційна безпека De Novo підтверджені міжнародною та державною сертифікацією й відповідають вимогам корпоративного бізнесу
Робота в De Novo
Партнерство
Контакти
Головна Блог компанії De Novo ШІ-агенти: реальність не відповідає очікуванням
ШІ-агенти: реальність не відповідає очікуванням

ШІ-агенти: реальність не відповідає очікуванням

2025-08-13

Генеративні агенти на базі сучасних мовних моделей обіцяють революцію в цифровій автоматизації. Однак практика показує: такі системи поки що нестабільні й часто не справляються навіть з базовими завданнями. Недавнє масштабне дослідження продемонструвало, наскільки обмеженими є можливості таких рішень у реальних сценаріях. Утім, ці проблеми поступово вирішуються.

Бурхливий розвиток генеративних мовних моделей викликав хвилю інтересу до нових форм їхнього застосування. Одним із таких напрямів стали так звані ШІ-агенти — системи, здатні діяти від імені користувача: працювати з файлами, браузером, інтерфейсами застосунків. Це не просто чат-боти, а складніші структури, де модель отримує завдання, формує план та виконує дії поетапно. 

Багато хто уявляв їх як «цифрових асистентів» нового покоління — універсальних, автономних, здатних звільнити людину від рутини. Проте реальність поки що далека від цих очікувань. Нові дослідження, проведені науковими центрами та технологічними компаніями, виявили, що сучасні ШІ-агенти не здатні гарантувати стабільне виконання навіть відносно простих завдань.

Дослідження, що виявило проблеми

У червні 2025 року дослідники з Microsoft Research опублікували масштабний аналіз продуктивності сучасних ШІ-агентів. Робота була розміщена на платформі arXiv й проводилася в спеціалізованому середовищі AutoGen Studio, також розробленому в Microsoft. Усі агенти тестувалися на наборі з півсотні завдань, що імітували дії користувача в цифровому середовищі: відкриття файлів, навігація у вебінтерфейсі, копіювання інформації з PDF-документа, заповнення форм та інші багатоетапні дії. Кожне завдання складалося з 3–5 логічно пов’язаних кроків. Мета полягала в тому, щоб з’ясувати, наскільки надійно різні моделі справляються з такими активностями. Результати виявилися досить несподіваними: із тринадцяти протестованих моделей лише одна змогла успішно виконати понад 30% завдань, а більшість «піддослідних» провалили дев’ять із десяти сценаріїв.

Ось підсумковий список результатів:

  • Gemini-2.5-Pro — 30,3%
  • Claude-3.7-Sonnet — 26,3%
  • Claude-3.5-Sonnet — 24%
  • Gemini-2.0-Flash — 11,4%
  • GPT-4o (OpenAI) — 8,6%
  • Llama-3.1-405b — 7,4%
  • Llama-3.3-70b — 6,9%
  • Qwen-2.5-72b — 5,7%
  • o3-mini — 4%
  • Gemini-1.5-Pro — 3,4%
  • Llama-3.1-70b — 1,7%
  • Amazon-Nova-Pro-v1 — 1,7%
  • Qwen-2-72b — 1,1%
AI agents sheet

Серед найпоширеніших проблем — застрягання агента на одному з кроків, втрата проміжних результатів і хибне розуміння контексту дії. Дослідники підкреслюють: усі завдання були складені з урахуванням логіки, послідовності та практичної спрямованості, щоб максимально наблизити умови до реального використання.

Подібних висновків дійшли й автори іншого незалежного аналізу, проведеного науковцями з Carnegie Mellon University та Salesforce. Їхні результати також засвідчили вкрай низький рівень успішності сучасних ШІ-агентів у прикладних завданнях, що підкреслює масштаб проблеми та її міждисциплінарний характер.

Що заважає ШІ-агентам працювати ефективно

Попри вражаючі можливості мовних моделей у генерації тексту, перехід до повноцінного «дієвого» ШІ потребує значно більших зусиль. Сучасні агенти — це системи, в яких мовна модель керує діями, надсилаючи команди інтерфейсам. Проте сама модель не має внутрішнього уявлення про цифрове середовище, пам’яті про попередні кроки чи стратегії поведінки.

Агенти не відстежують власний стан і не вибудовують план виконання завдання як цілісну структуру. Навіть якщо вони вдало розпочинають — наприклад, відкривають PDF і знаходять потрібний email — вони можуть «забути», що з ним робити далі, або вставити його не в те поле. Проміжні збої, повільне завантаження сторінки чи зміни в інтерфейсі можуть повністю збити агента з правильного шляху.

Також LLM-моделі часто не вміють відновлюватися після помилок. У разі непередбаченої ситуації вони або починають виконання заново, або зациклюються на одному й тому ж кроці. Відсутність довготривалої пам’яті та слабке розуміння ходу завдання обмежує можливості ШІ-агентів навіть попри їхню видиму «інтелектуальність». Фактично ШІ-агенти більше схожі на складні системи автодоповнення (autocomplete systems), ніж на розумних виконавців. Вони передбачають наступну дію, але не бачать усієї картини. Це й визначає їхню обмежену ефективність.

Чи є вихід?

Розробники ШІ-агентів випробовують різні підходи для підвищення їхньої надійності. Один із найпопулярніших — додавання «поетапного мислення» (Chain-of-Thought), коли модель промовляє кожен крок перед виконанням. Інший — ReAct, де агент розділяє міркування й дію. Також застосовуються техніки саморефлексії, коли агент оцінює власні дії та перевіряє результат перед наступним кроком.

У межах дослідження було протестовано понад 20 різних стратегій посилення агентів. Деякі з них дійсно покращили результати — особливо в простих завданнях. Проте жоден підхід не забезпечив стабільної роботи на всьому наборі тестів. Навіть у найкращих випадках рівень успішності не перевищував 40–50%, а поведінка агента залишалася чутливою до формулювань інструкції та умов середовища.

Головна проблема в тому, що більшість підходів намагаються пристосувати мовну модель до ролі виконавця, не змінюючи її архітектуру. Без введення структурованої пам’яті, чіткого планувальника й стійкого контролю за середовищем ШІ-агенти залишатимуться експериментальними конструкціями. Деякі дослідники пропонують рух у бік гібридних архітектур, де LLM працює у зв’язці з модулями логічного виводу, планування та управління станом. Це потребуватиме переходу від prompt-інженерії до проєктування повноцінних багатокомпонентних систем.

Чого очікувати найближчим часом

На поточному етапі ШІ-агенти вже можуть бути корисними в прикладних завданнях — особливо там, де припустима неточність або потрібна допомога в чернетковій роботі. Вони добре справляються з генерацією тексту, структуруванням інформації, пошуком, складанням чернеток відповідей або задач. Але їхні можливості в автономних діях поки що обмежені. Для пересічного користувача важливо усвідомлювати: ШІ-агент — це не заміна людині, а інструмент-помічник. Він може пришвидшити роботу, але потребує нагляду й перевірки результатів. Передавати йому складні завдання без контролю — усе ще ризиковано.

Бізнесу такі агенти можуть бути корисними як допоміжні модулі автоматизації — зокрема для прототипування процесів, обробки повторюваних задач, аналізу документів. Проте необхідно передбачити рівні контролю: логування, обмеження доступу, ручну валідацію результатів. ШІ-агенти не вирішують усі завдання, але можуть принести практичну користь за умови обережного використання.

Як би там не було, генеративні агенти є важливим кроком у розвитку ШІ: перехід від пасивної генерації тексту до активної взаємодії з цифровим середовищем. Але поточний рівень розвитку технології свідчить: перед нами ще не готовий продукт, а радше дослідницький інструмент. Навіть найпросунутіші моделі демонструють обмежені можливості в практичних сценаріях. Причини криються в архітектурних обмеженнях LLM: відсутність пам’яті, обмежене планування, слабке управління помилками.

Попри це, потенціал напряму — величезний. Поєднання мовних моделей із логічними модулями, контролерами й структурованою пам’яттю відкриває шлях до створення справді корисних цифрових помічників. Але для цього потрібні час, інженерне переосмислення й обережне впровадження. ШІ-агенти тільки починають свій шлях — і поки технологія не стане зрілою, не варто поспішати надмірно їм довіряти.

© 2008—2026 De Novo (ТОВ «Де Ново»)