Главная Блог компании De Novo Tensor Cloud: лучшая платформа для продуктивного инференса

Tensor Cloud: лучшая платформа для продуктивного инференса

2026-02-17

De Novo Cloud Expert

Очередная публикация из серии материалов про новые облачные продукты De Novo познакомит вас с решениями для задач AI/ML. С 2025 года в облаке Tensor Cloud есть новейшие ускорители NVIDIA H200 NVL и не только они.

Напомним, что в предыдущих выпусках м поговорили о новых сервисах вообще, а также более детально рассмотрели услуги по хранению и защите данных.

В 2025 году мы расширили номенклатуру тензорных ускорителей (TPU/GPU) в сервисе Tensor Cloud. Генеративные модели всё чаще переходят из области экспериментов и пилотных запусков в продуктивные сервисы. В этот момент технические параметры инфраструктуры начинают играть определяющую роль: важно понимать, сколько запросов в секунду выдержит контур, какой будет уровень задержки, где находится предел по размеру модели и сколько стоит один ответ. На практике заказчики чаще всего упираются в объём видеопамяти и скорость обмена данными между ускорителями.

Поэтому мы добавили возможность заказа в Tensor Cloud одного из самых мощных тензорных ускорителей NVIDIA — H200 NVL. Принципиальным моментом является то, что доступны инстансы с двумя или четырьмя ускорителями, объединёнными высокоскоростным интерконнектом NVLink с пропускной способностью 900 ГБ/с (речь именно о гигабайтах, не гигабитах). В конфигурации 4×H200 NVL суммарный объём VRAM составляет 564 ГБ. VRAM — это видеопамять, где размещаются веса модели и рабочие данные. При достаточно быстром обмене между ускорителями такая конфигурация позволяет эффективно распределять задачи по нескольким картам и запускать генеративные модели масштаба сотен миллиардов параметров. Это уже типовой запрос у тех, кто строит коммерческие сервисы.

После добавления H200 NVL платформа Tensor Cloud закрывает ещё более широкий диапазон AI/ML-нагрузок. У нас есть универсальные и более экономичные L4 и L40S. Есть ускорители верхнего класса для тяжёлых задач — H200 NVL, H100, A100 NVL. Такой выбор важен именно для инференса, то есть для продуктивного выполнения модели и выдачи ответов пользователям или системам, поскольку одна и та же модель на разных стадиях жизненного цикла требует разного баланса памяти, пропускной способности и стоимости.

Дальше включаются платформенные сервисы, без которых GPU в облаке остаётся просто арендой «голых» вычислительных ресурсов. В Tensor Cloud используется технология виртуализации NVIDIA vGPU. Она позволяет выделять ускоритель долями — 1/8, 1/4, 1/2 — и подбирать ресурсы под реальную нагрузку. Для инференса это часто даёт более точный контроль затрат в зависимости от реальных потребностей. Второй эффект — эксплуатационный: за счёт технологии виртуализации обеспечивается высокая доступность, включая нулевое окно обслуживания за счет возможности миграции рабочих нагрузок между GPU-хостами без прерывания работы.

Развитие не ограничивается IaaS-слоем. Для cloud-native инфраструктур у нас есть базовые PaaS-сервисы, такие как managed Kubernetes (управляемый Kubernetes), S3-совместимое объектное хранилище, балансировщик нагрузки (load balancer). На первый квартал 2026 года запланирован запуск сервиса Database as a Service. При этом для корпоративных и персональных данных, где принципиально важна приватность, мы обеспечиваем механизмы защиты и контроля. Обработка остаётся под управлением заказчика, что часто оказывается критически важным для комплаенса.

По нашим расчётам итоговая стоимость использования Tensor Cloud оказывается ниже стоимости гиперскейлеров до 35% в сопоставимых сценариях. В совокупности факторов это формирует развитую и экономически обоснованную платформу для инференса в Украине. Также мы разработали и внедрили сервис AI Studio — облачную low-code/no-code среду для экспериментов с генеративными моделями и для продуктивного инференса, включающую библиотеку моделей. Этот сервис работает со всем спектром GPU, включая H200 NVL, поэтому логично рассмотреть его отдельно.

новости De Novo AI/ML