Головна Блог компанії De Novo Deloitte постраждала через галюцинації ШІ. Чому це добре?

Deloitte постраждала через галюцинації ШІ. Чому це добре?

2025-11-26

De Novo Cloud Expert

Генеративний штучний інтелект підвів аудитора з «великої четвірки». Deloitte визнала використання GPT-4o під час підготовки звіту для австралійського уряду та погодилася на часткове повернення коштів після виявлення вигаданих цитат та фіктивних посилань.

Великі консалтингові компанії дуже рідко визнають свою провину та повертають гроші замовнику. Коли ж причиною цього стають «галюцинації» нейромережі в офіційному документі, історія перетворюється на холодний душ для всієї індустрії. Йдеться про об’ємний звіт, підготовлений компанією Deloitte для Департаменту зайнятості та трудових відносин Австралії (DEWR), у якому було виявлено вигадані джерела та навіть фальшиві цитати з рішень Федерального суду. Першу версію DEWR опублікував у липні, а виправлену — у жовтні, уже з визнанням використання GPT-4o в методології.

Після першої публікації помилки у звіті помітив дослідник Крістофер Радж із Сіднейського університету; саме його аналіз спонукав до внутрішньої перевірки. Deloitte заявила, що поверне фінальний платіж за контрактом, загальна вартість якого становила 440 тис. австралійських доларів (290 тис. дол. США). Точна сума компенсації не названа, проте за деякими даними, вона становить близько 100 тис. австралійських доларів (65 тис. дол. США), тобто понад 20 % від загальної суми. Водночас DEWR наполягає, що ключові висновки й рекомендації звіту не змінилися, а помилкові посилання мали допоміжний характер. Та все ж інцидент ставить питання значно ширше — наскільки загалом можна довіряти рекомендаціям і звітам, створеним за допомогою ШІ.

Помилка не в моделі, а у підході

Можливо, це когось здивує, проте навіть найкраща велика мовна модель (LLM) не знає фактів — вона передбачає правдоподібне продовження. У звіті для DEWR ця «правдоподібність» обернулася згаданими вище проблемами. Після того як скандал став публічним, Deloitte визнала відповідальність (далеко не відразу), виплатила неустойку та виправила помилки, вилучивши понад десяток фіктивних посилань й переписавши список літератури. Важливий момент: у методології підготовки документа було прямо зазначено, що ШІ застосовувався для усунення «прогалин у простежуваності та документації» — тобто на етапі, де потрібна сувора пер джевірка ерел, а не генерація тексту.

Саме тому цей випадок дуже показовий у контексті управління ризиками ШІ. Коли модель включають у ядро аналітичного процесу, а не у допоміжні операції, ймовірність прихованих і водночас переконливих помилок зростає. Крістофер Радж та інші експерти прямо пов’язують набір артефактів із галюцинаціями генеративної моделі й відсутністю належної верифікації.

Deloitte провела внутрішню перевірку й пов’язала проблеми з «людським фактором». Це схоже на правду. Хтось ухвалив методологічне рішення залучити ШІ в чутливому сегменті роботи й не вибудував процес перевірки: незалежний факт-чек, повторну реконструкцію цитат, перевірку існування першоджерел. У результаті відповідальність розмилася, але репутаційні втрати для компанії залишилися. Інцидент підсвітив ще одну слабку зону — прозорість. Перша версія звіту не розкривала факт використання генеративної моделі, та лише після розголосу в пресі й академічному середовищі з’явилися уточнення від компанії про те, що в процесі роботи над документом використовувався Azure OpenAI GPT-4o.

До речі, національний британський регулятор FRC уже попереджав, що найбільші аудиторські фірми застосовують ШІ для оцінки ризиків та обробки даних, але водночас слабо відстежують вплив таких інструментів на якість аудиту й не формують KPI контролю. Випадок в Австралії — це приклад того, як відсутність зрілих процедур призводить до дорогих виправлень, критики й зниження довіри до індустрії професійних послуг.

Та все ж річ не стільки у ШІ, скільки в самих людях та в бізнес-моделі компаній, що допускають подібні інциденти. Генеративні моделі корисні, якщо їх роль чітко обмежена: чернеткове редагування, резюмування, підготовка питань та інше в цьому стилі. Там, де починається доказова аналітика, вже потрібні люди-експерти. Потрібна також заборона на автогенерацію посилань, подвійна верифікація цитат, незалежна перевірка існування джерел, обов’язкове позначення вкладу ШІ в методологію. Інакше вийде саме те, що сталося зі звіт DEWR: загалом якісний текст, що приховує помилки. Добре ще, що ці помилки не призвели до фатальних наслідків.

Цікаво, що саме лідер із консалтингу в галузі ШІ (Deloitte активно просуває ідею використання штучного інтелекту в різних видах діяльності) потрапив у пастку, переоцінивши можливості технології. З іншого боку, те, що історія трапилася з такою відомою та авторитетною компанією, — це навіть добре. Бо ринок зверне пильнішу увагу на умови договорів із консультантами та, очевидно, вимагатиме обов’язкового розкриття даних про використання ШІ, чітко прописуватиме вимоги до верифікації відомостей та санкції за приховане застосування генеративних моделей.

AI/ML