Меню
Главная Блог компании De Novo ИИ-проекты дорожают из-за роста стоимости разметки данных
ИИ-проекты дорожают из-за роста стоимости разметки данных

ИИ-проекты дорожают из-за роста стоимости разметки данных

2024-10-17

При создании и обучении AI/ML-моделей основные затраты приходятся сегодня на аппаратное обеспечение, но чем дальше, тем больше денег уходит и на другие составляющие процесса. Например, все дороже обходится разметка данных. 

Технологии искусственного интеллекта все глубже проникают во все сферы повседневной жизни. В попытках удовлетворить растущий спрос на технологии, компании по всему миру вкладывают миллиарды в создание мощных дата-центров и развитие вычислительной инфраструктуры для ИИ. Тем не менее, для создания успешных проектов, качественные, актуальные и непротиворечивые наборы данных важны не меньше, чем графические ускорители. При этом данных для обучения моделей требуется все больше, растут требования к качеству и полноте. Все это приводит к тому, что быстро увеличивается стоимость маркировки данных, что в свою очередь удорожает ИИ-проекты в целом. Пока что эта тенденция только начинает проявлять себя, но, судя по всему, уже в ближайшие годы стоимость получения релевантных данных может сравниться с затратами на аппаратную инфраструктуру (а то и превзойти их). 

Разметка (маркировка) — это процесс, в ходе которого люди-эксперты или специальное ПО присваиваю метки (тэги) тем или иным элементам данных (изображения, тексты, лица), определяя, что именно в них содержится. Модели ML учатся на примерах. Размеченные данные как раз и предоставляют необходимые примеры, показывая модели, как связаны входы (скажем, изображения или текст) и выходы (классы, объекты). Качество разметки данных напрямую влияет на точность моделей. Чем качественнее маркировка, тем лучше ML-модель будет выполнять свои задачи. Особенно важны сегодня качественные данные в таких областях как распознавание лиц и объектов, автономный транспорт, преобразование отсканированных документов или рукописного текста в машиночитаемый формат, анализ эмоций, специализированные экспертные системы и т.д. 

Когда речь идет о действительно важных моделях, требующих точности, то здесь не обойтись без участия людей. При этом, в разных случаях могут использоваться различные подходы. Скажем, при обучении моделей, предназначенных для беспилотного транспорта, требуется обработка и маркировка огромного количества изображений типовых объектов, таких как дорожные знаки, светофоры, мотоциклы, машины и т.д. Для этой цели можно задействовать низкооплачиваемый персонал, который бы выполнял ряд простых задач, но таких людей потребуется очень много. На другом полюсе находятся специализированные экспертные модели, например для юридических или медицинских консультаций. Здесь уже необходим труд высококлассных специалистов и хотя их может понадобиться не так много, но цена работы каждого эксперта встанет в немалые деньги. 

Есть, конечно, и специализированные аутсорсинговые компании, готовые выполнить разметку вместо заказчика, но стоимость таких услуг тоже немаленькая. В итоге, как отмечают эксперты отрасли, на маркировку данных вскоре будет уходить от 25 до 50% всего бюджета, выделенного для ИИ-проекта. Причем для обеспечения актуальности, данные должны периодически дополняться, пересматриваться и обрабатываться заново. Соответственно, поддержание модели в рабочем состоянии потребует регулярных вложений. Так что, планируя разработку AI/ML-проектов важно помнить о том, что стоимость качественных наборов данных может существенно увеличить общую сумму затрат. 

© 2008—2024 De Novo (Де Ново)