Меню
Главная Блог компании De Novo xAI запустила Colossus — возможно, мощнейший ИИ-кластер на сегодняшний день
xAI запустила Colossus — возможно, мощнейший ИИ-кластер на сегодняшний день

xAI запустила Colossus — возможно, мощнейший ИИ-кластер на сегодняшний день

2024-10-11

Компания xAI, основанная Илоном Маском, в начале сентября запустила кластер Colossus. Обладая сотней тысяч ускорителей NVIDIA H100 это, вероятно, самая мощная, на данный момент, GenAI-система в мире. Правда, некоторые эксперты указывают на определенные нестыковки в технических характеристиках. 

Илон Маск умеет удивлять, хотя бы даже самим многообразием идей и проектов, которые предприниматель и визионер сумел запустить за относительно короткое время. Новейшим детищем Маска стала относительно небольшая но мощная компания xAI, созданная в марте 2023 года, в которую, кстати, удалось привлечь бывших технических экспертов из Google DeepMind. Заявленная цель проекта — «понять истинную природу Вселенной» ну или, как минимум, создать модель искусственного интеллекта, способную к продвинутым математическим рассуждениям.  

 

Сто тысяч ускорителей — только первый этап 

Первым крупным успехом xAI стала разработка гигантской LLM-модели (с 314 млрд параметрами) Grok-1, на основе алгоритмов глубокого обучения (Deep Learning, DL). Вторым важнейшим направлениям деятельности xAI является разработка подходящей аппаратной основы для искусственного интеллекта. С этой целью компания спроектировала, разработала и ввела в эксплуатацию кластер Colossus, в составе которого, на данный момент, установлено 100 тыс. GPU/TPU ускорителей NVIDIA H100. Такой мощностью, на момент запуска не мог похвастать ни один другой ИИ-кластер в мире. 

 Источник изображения: WebProNews

 Как написал сам Илон Маск в собственной соцсети X — весь процесс, от начала проектирования до запуска кластера занял всего 122 дня. По некоторым данным, столь рекордные темпы запуска кластера, для такой небольшой компании (в xAI официально работает около ста человек) обеспечены, в т.ч. благодаря активной помощи специалистов Supermicro и Dell. Для связи узлов кластера используется технология удаленного прямого доступа к оперативной памяти — Remote Direct Memory Access (RMDA), для отвода тепла — прямое жидкостное охлаждение. 

 Но это только начало. Вскоре вычислительную мощность системы планируется удвоить. Как сообщается, 200 тыс. ускорителей — это необходимая мощность для обучения будущей DL-модели Grok-3 (в свое время, для Grok-2 понадобилось 24 тыс. GPU H100). При этом, в своей нынешней конфигурации стоимость Colossus, без учета цены инженерной инфраструктуры дата-центра, оценивается в $3-4 млрд. 

 

Колоссальная мощность для Colossus 

Сам ЦОД, где развернут Colossus, расположен в Мемфисе (штат Теннеси, США), но к параметрам самого этого объекта возникли определенные вопросы. Дело в том, что по оценкам экспертов, кластер такой мощности должен потреблять суммарно до 150 МВт электроэнергии. Во всяком случае, такая электрическая мощность должна быть доступна при максимальных нагрузках. В то же время, оператор дата-центра — Tennessee Valley Authority готова была выдавать «всего» 58 МВт.  

В дополнение к этому, xAI подключила к ЦОДу 14 внешних мобильных генераторов VoltaGrid на природном газе (для этого, кстати, пришлось организовать четыре дополнительные электрические подстанции). Это дало еще 35 МВт. То есть суммарно — 93 МВт. Это гигантская мощность, но это все равно лишь около 60% от необходимого (а, ведь, систему планируется еще и существенно нарастить). На фоне этой «нестыковки» некоторые эксперты выразили мнение, что, скорее всего, не все ускорители будут работать одновременно. Во всяком случае, на данном этапе. В целом же, технических деталей о Colossus, сообщается относительно немного. К примеру, неизвестно, как организована система хранения данных кластера. Но, по мере роста интереса к проекту, очевидно, будет появляться все больше деталей.  

Отметим, что Илон Маск, предсказывает появление искусственного интеллекта, который будет умнее человека, уже в 2025-2026 годах. Так это будет или нет — покажет время, но, похоже, xAI, Grok и Colossus играют играть в этом процессе далеко не последнюю роль. 

Напомним, что распоряжение мощнейшие GPU/TPU акселераторы NVIDIA H100 также доступны в облаках De Novo и не только они одни — тут есть все необходимые мощности и средства для быстрого разворачивания AI/ML-инфраструктур. Уже сейчас вы можно получить в свое, полноценное ML-окружение для разработчиков, платформу для работы с Kubernetes, основанную на лучших мировых практиках и многое другое. 

Обращайтесь за консультацией к нашим экспертам! 

© 2008—2024 De Novo (Де Ново)