Мировые ИТ-гиганты разрабатывают альтернативу NVLink
2024-06-27
Группа крупнейших компаний, в числе которых AMD, Broadcom, Cisco, Google, HPE, Intel, Meta, Microsoft объявили о создании альянса Ultra Accelerator Link с целью разработки решения для конкуренции с интерконнектом NVIDIA NVLink. Удастся ли создать достойную альтернативу?
Для эффективной тренировки и эксплуатации моделей машинного обучения, сложных расчетов и многих других современных задач, связанных с AI/ML крайне важным компонентом является интерконнект — технология связи между вычислительными узлами. Если он не сможет обеспечивать достаточной скорости обмена данными, то производительность даже самых лучших GPU/TPU, будет использоваться отчасти впустую.
Поэтому, в свое время, компания NVIDIA, будучи пионером на рынке GPU, позаботилась и о подходящем интерконнекте, представив около десяти лет назад технологию NVLink для связи отдельных ускорителей в общую систему. До недавнего времени, с помощью этого интерконнекта можно было напрямую объединить GPU высокоскоростными каналами только внутри одного сервера. Но в 2022 году компания вывела на рынок, в составе комплексной архитектуры Hopper, новую версию интерфейса — NVLink v 4.0, которая обеспечила целый ряд прорывных преимуществ. Главное из которых в том, что этот интерконнект не ограничен рамками сервера и может напрямую объединять в общую систему (домен) до 256 акселераторов, в том числе из внешних вычислительных узлов, на скорости до 900 Гбайт/с (в обоих направлениях). Это обеспечило не только радикальный прирост производительности на задачах AI/ML, но и привело к резкому росту спроса на решения компании, поскольку, скажем, последняя версия шины PCIe 6.0 на такое не способна и работает она в разы медленнее (на скорости до 128 Гбайт/с).
Отметим, что топовые модели ускорителей NVIDIA H100 на базе архитектуры Hopper доступны из облака (GPU Cloud) De Novo— в составе сервисов Tensor Cloud, HTI и ML Cloud.
Да здравствует конкуренция?
Естественно, другие ИТ-гиганты не могли долго смотреть на успех конкурента, но подходящей технологии, которая могла бы стать достойной и, главное, массовой заменой NVLink сейчас ни у кого нет. К примеру у AMD есть Infinity Fabric — фирменный интерконнект на базе PCIe с пиковой пропускной способностью, почти как у NVLink v 4.0, но без возможности подключения внешних узлов. Появление первых коммутаторов с перспективным интерфейсом PCIe 7.0 и технологией Accelerated Fabric Link, которые смогут обеспечить одновременную работу GPU из разных серверов, ожидается не ранее 2025 года (сейчас еще даже не утверждена спецификация). При этом сама NVIDIA уже выпускает оборудование на базе NVLink v 5.0, с пропускной способностью до 1,8 Тбайт/с и возможностью объединения до 576 ускорителей.
Поэтому ряд крупнейших ИТ-компаний решили объединить усилия и разработать альтернативу NVLink, для чего, в мае нынешнего года был создан тематический альянс — Ultra Accelerator Link, в состав которого на сегодняшний день входят AMD, Broadcom, Cisco, Google, HPE, Intel, Meta, Microsoft и другие. По заявлениям партнеров, первая версия нового интерфейса UALink, который сможет объединять до 1024 GPU в одном домене (с возможностью прямого обращения к их памяти), должна появится до конца текущего года.
Особых технических подробностей будущей разработки, пока не приводится, но партнеры делают акцент на том, что это будет «открытый» стандарт, который смогут использовать различные разработчики. Напомним, что это не первая попытка крупнейших ИТ-игроков сформировать технологический альянс против тех или иных решений NVIDIA — около года назад AMD, Arista, Broadcom, Cisco, Atos, HPE, Intel, Meta и Microsoft создали консорциум Ultra Ethernet (сегодня туда входит уже более полусотни компаний) для разработки альтернативы высокоскоростной сетевой технологии InfiniBand, которую NVIDIA получила в единоличное распоряжение после покупки Mellanox в 2019 году. Но, пока, серийных продуктов на базе UEC также не видно.
Что ж, конкуренция — это почти всегда хорошо, особенно в технологических отраслях, но оборудования UALink и UEC еще предстоит дождаться, в то время как решения NVIDIA продолжают завоевывать все новые ниши и доли рынка.