AI-проєкти дорожчають через зростання вартості розмітки даних
2024-10-17
При створенні та навчанні AI/ML-моделей основні витрати припадають сьогодні на апаратне забезпечення, але чим далі, тим більше грошей йде й на інші компоненти процесу. Наприклад, все дорожче коштує розмітка даних.
Технології штучного інтелекту дедалі глибше проникають у всі сфери повсякденного життя. У спробах задовольнити зростальний попит на технології, компанії по всьому світі вкладають мільярди у створення потужних дата-центрів та у розвиток обчислювальної інфраструктури для ШІ. Проте, для створення успішних проєктів якісні, актуальні та несуперечливі набори даних важливі не менше, ніж графічні прискорювачі. При цьому даних для навчання моделей потрібно все більше, зростають вимоги до їх якості та повноти. Все це призводить до того, що швидко збільшується вартість маркування даних, що, своєю чергою, призводить до подорожчання ШІ-проєктів в цілому. Зараз ця тенденція лише починає проявлятися, але скоріш ха все, вже найближчими роками вартість отримання релевантних даних може зрівнятися з витратами на апаратну інфраструктуру (а то й перевершити її).
Розмітка (маркування) — це процес, під час якого люди-експерти чи спеціальне ПЗ присвоюють мітки (теги) тим чи іншим елементам даних (зображенням, текстам тощо), визначаючи, що саме у них міститься. Моделі ML навчаються на прикладах. Розмічені дані як раз надають ці необхідні приклади, показуючи моделі, як пов'язані входи (скажімо, зображення чи текст) та виходи (класи, об'єкти). Якість розмітки безпосередньо впливає на точність моделей. Чим якісніше маркування, тим краще ML-модель виконуватиме свої задачі. Особливо потрібні сьогодні якісні дані в таких галузях як розпізнавання осіб та об'єктів, автономний транспорт, перетворення відсканованих документів або рукописного тексту в машинний формат, аналіз емоцій, спеціалізовані експертні системи тощо.
Коли йдеться про справді важливі моделі, що потребують високої точності, то тут у будь-якому випадку не обійтися без участі людей. При цьому в різних проєктах можуть використовуватися різні підходи. Скажімо, при навчанні моделей, призначених для безпілотного транспорту, потрібна обробка та маркування величезної кількості зображень типових об'єктів, таких як дорожні знаки, світлофори, мотоцикли, машини тощо. З цією метою можна залучити низькооплачуваний персонал, який буде виконувати ряд простих завдань з маркування, але таких людей знадобиться дуже багато. На іншому полюсі знаходяться спеціалізовані експертні моделі, наприклад, для юридичних чи медичних консультацій. Тут вже потрібна праця висококласних фахівців й хоча їх може знадобитися не так багато, але ціна роботи кожного експерта обійдеться у чималі гроші.
Є, звичайно, й спеціалізовані аутсорсингові компанії, що готові виконати розмітку замість замовника, проте вартість таких послуг теж немаленька. В результаті, як зазначають експерти галузі, на маркування даних незабаром йтиме від 25 до 50% всього бюджету, виділеного для ШІ-проєкту. Причому для забезпечення актуальності, дані повинні періодично доповнюватися, переглядатися та оброблятися заново. Відповідно, підтримка моделі в робочому стані вимагатиме регулярних вкладень. Таким чином, плануючи розробку AI/ML-проєктів, важливо пам'ятати про те, що вартість якісних наборів даних може суттєво збільшити загальну суму витрат.