Архитектура NVIDIA Hopper оказалась удачной для AI/ML — спрос на акселераторы H100 опережает предложение
2024-06-03
Нынешний бум решений на базе искусственного интеллекта стал возможен во многом благодаря доступности соответствующей аппаратной базы. Ключевую роль здесь сыграли новые GPU акселераторы. Особенно продуктивной оказались решения с тензорными ядрами (TPU) на базе новой архитектуры NVIDIA Hopper, а модель ускорителя Н100 стала настоящим бестселлером.
Долгое время массовое развитие технологий искусственного интеллекта (AI) и машинного обучения (ML) сдерживалось отсутствием подходящей аппаратной базы — доступные решения были недостаточно производительными, слишком дорогими либо очень сложными в использовании. Все изменилось совсем недавно — с появлением на массовом рынке графических ускорителей с тензорными ядрами (Tensor Processing Unit, TPU). Особенно продуктивніми оказались решения на базе микроархитектур NVIDIA Ampere и Hopper появилась в 2022 году). В результате, модели ускорителей для дата-центров А100 и особенно Н100, в мгновение ока стали настоящим стандартом отрасли.
Недавно пришла новость о том, что акселераторы на базе микроархитектуры NVIDIA Hopper пробились на самый верх мира высокопроизводительных вычислений и новый рейтинг мощнейших суперкомпьютеров — TOP500, опубликованный в середине мая 2024 года, на этот раз содержит сразу семь систем, использующих ускорители с упомянутой архитектурой. Самая мощная из них — швейцарский суперкомпьютер Alps, который занял шестое место списка. К тому же первые три позиции параллельного рейтинга самых энергоэффективных суперкомпьютеров, Green500, тоже взяли системы на базе Hopper. Уточним, что во всех случаях результат обеспечили специальные высокопроизводительные модули Grace Hopper, сочетающие в себе фирменные процессоры и GPU ускорители NVIDIA, но в основе лежит та же микроархитектура Hopper, что и в решениях для широкого рынка.
Более того, немецкий суперкомпьютерный центр в городе Юлих (JSC) намерен закупить 24 тыс. модулей NVIDIA GH200 Grace Hopper для нового европейского суперкомпьютера Jupiter. А в научном центре AI Bridging Cloud Infrastructure (ABCI), принадлежащем Национальному институту передовых промышленных наук и технологий Японии (AIST) продолжается создание суперкомпьютера ABCI-Q в составе которого будет использовано свыше 2 тыс. более массовых ускорителей NVIDIA H100.
Напомним также, что в прошлом году компания Tesla запустила свой новый суперкомпьютер, составе которого работает 10 тыс. акселераторов H100. Всего же, по данным NVIDIA, ежемесячный спрос на данную модель существенно превышает 100 тыс. единиц, притом, что по оценкам аналитиков, компания может производить не более 1,2 млн. таких ускорителей в год. Соответственно, формируется нарастающий дефицит. Тем не менее, заказчики готовы ждать месяцами и существенно переплачивать, лишь бы получить вожделенные карты в свое распоряжение.
В прошлом году, компания Tesla запустила новый суперкомпьютер, для которого было закуплено 10 тыс. ускорителей NVIDIA H100 на базе микроархитектуры Hopper.
Но есть вариант лучше. Если вы не гигант индустрии вроде Tesla и не суперкомпьютерный центр, получить достаточные вычислительные ресурсы на базе акселераторов NVIDIA H100 можно из облака, благодаря сервисам типа GPU Cloud.
Такую возможность предлагает и наша компания. Все необходимые ресурсы для ваших задач AI/ML уже доступны на базе коллективного или частного облака De Novo. Также вы можете получить в свое распоряжение полноценное ML-окружение для инженеров DevOps, с помощью PaaS-сервиса De Novo ML Cloud.