Головна Блог компанії De Novo xAI запустила Colossus — можливо, найпотужніший ШІ-кластер на сьогодні

xAI запустила Colossus — можливо, найпотужніший ШІ-кластер на сьогодні

2024-10-11

De Novo Cloud Expert

Компанія xAI, створена Ілоном Маском, на початку вересня запустила кластер Colossus. Маючи сотню тисяч прискорювачів NVIDIA H100, це, ймовірно, найпотужніша, на цей час, GenAI-система у світі. Щоправда, деякі експерти вказують на певні невідповідності у технічних характеристиках.

Ілон Маск вміє дивувати, хоча б навіть самим різноманіттям ідей та проєктів, які підприємець та візіонер зумів запустити за відносно короткий час. Новим напрямком роботи для Маска стала відносно невелика, але потужна компанія xAI, створена в березні 2023 року, в яку, до речі, вдалося залучити колишніх технічних експертів з Google DeepMind. Офіційна мета проєкту — «зрозуміти справжню природу Всесвіту» або, як мінімум, створити модель штучного інтелекту, здатну до просунутих математичних міркувань.

Сто тисяч прискорювачів – лише перший етап

Першим великим успіхом xAI стала розробка гігантської LLM-моделі (з 314 млрд параметрами) Grok-1, на основі алгоритмів глибокого навчання (Deep Learning, DL). Другим найважливішим напрямам діяльності xAI є розробка відповідної апаратної основи штучного інтелекту. З цією метою компанія спроєктувала, розробила та ввела в експлуатацію кластер Colossus, у складі якого на цей час встановлено 100 тис. GPU/TPU прискорювачів NVIDIA H100. Такою потужністю на момент запуску не міг похвалитися жоден інший ШІ-кластер у світі.

Як написав сам Ілон Маск у своїй соцмережі X — весь процес, від проєктування до запуску кластера зайняв лише чотири місяці. За деякими даними, рекордні темпи запуску кластера для такої невеликої компанії (у xAI офіційно працює близько ста осіб) забезпечені, в т.ч. завдяки активному злученню фахівців Supermicro та Dell. Для зв'язку вузлів кластера використовується технологія віддаленого прямого доступу до оперативної пам'яті – Remote Direct Memory Access (RMDA), для відведення тепла – пряме рідинне охолодження.

Проте це лише початок. Незабаром обчислювальну потужність системи планується подвоїти. Як повідомляється, 200 тис. прискорювачів — це необхідна апаратна основа для навчання майбутньої DL-моделі Grok-3 (свого часу для Grok-2 знадобилося 24 тис. GPU H100). При цьому у своїй нинішній конфігурації вартість Colossus, без урахування ціни інженерної інфраструктури дата-центру, оцінюється в $3-4 млрд.

Колосальна потужність для Colossus

Сам ЦОД, де розгорнуть Colossus, розташований у Мемфісі (штат Теннессі, США), але до параметрів самого об'єкта виникли певні питання. Річ у тому, що за оцінками експертів, кластер такої потужності має споживати сумарно до 150 МВт електроенергії. У всякому разі, така електрична потужність має бути доступною за максимальних навантажень. Водночас оператор дата-центру Tennessee Valley Authority готова була видавати «лише» 58 МВт.

Додатково, сама xAI підключила до ЦОДу 14 зовнішніх мобільних генераторів VoltaGrid на природному газі (для цього, до речі, довелося організувати чотири додаткові електричні підстанції). Це дало ще 35 МВт. Тобто сумарно – 93 МВт. Це гігантська потужність, проте це все одно лише близько 60% від необхідного (до того ж систему планують суттєво наростити). На тлі цієї «невідповідності» деякі експерти висловили думки, що, вочевидь, на всі прискорювачі працюватимуть одночасно, принаймні на даному етапі. Загалом, технічних деталей про Colossus, відомо відносно небагато. Наприклад, не сказано, як організовано систему зберігання даних кластера. Але, зі зростанням інтересу до проєкту, про нього, скоріш за все, з'являтиметься дедалі більше інформації.

Зазначимо, що Ілон Маск, передбачає появу штучного інтелекту, що буде розумнішим за людину, вже у 2025-2026 роках. Так це буде чи ні — покаже час, проте, схоже, xAI, Grok та Colossus гратимуть у цьому процесі зовсім не останню роль.

Нагадаємо, що найпотужніші GPU/TPU акселератори NVIDIA H100 також доступні у хмарах De Novo, й не лише вони — тут є всі необхідні потужності та засоби для швидкого розгортання AI/ML-інфраструктур. Вже зараз ви можете отримати у своє розпорядження повноцінне ML-оточення для розробників, платформу для роботи з Kubernetes, засновану на найкращих світових практиках та багато іншого.

Звертайтесь по консультацію до наших експертів!

AI/ML