Tensor Cloud: найкраща платформа для продуктивного інференсу
2026-02-17
De Novo Cloud Expert
Чергова публікація із серії матеріалів про нові хмарні продукти De Novo познайомить вас із рішеннями для завдань AI/ML. З 2025 року в хмарі Tensor Cloud доступні новітні прискорювачі NVIDIA H200 NVL і не лише вони.
Нагадаємо, що в попередніх випусках ми поговорили про нові сервіси загалом, а також більш детально розглянули послуги зі зберігання та захисту даних.
У 2025 році ми розширили номенклатуру тензорних прискорювачів (TPU/GPU) у сервісі Tensor Cloud. Генеративні моделі дедалі частіше переходять із площини експериментів та пілотних запусків у продуктивні сервіси. У цей момент технічні параметри інфраструктури починають відігравати визначальну роль: важливо розуміти, скільки запитів за секунду витримає контур, яким буде рівень затримки, де знаходиться межа за розміром моделі та скільки коштує одна відповідь. На практиці замовники найчастіше впираються в обсяг відеопам’яті й швидкість обміну даними між прискорювачами.
Тому ми додали можливість замовлення в Tensor Cloud одного з найпотужніших тензорних прискорювачів NVIDIA — H200 NVL. Принциповим моментом є те, що доступні інстанси з двома або чотирма прискорювачами, об’єднаними високошвидкісним інтерконектом NVLink із пропускною спроможністю 900 ГБ/с (йдеться саме про гігабайти, а не гігабіти). У конфігурації 4×H200 NVL сумарний обсяг VRAM становить 564 ГБ. VRAM — це відеопам’ять, у якій розміщуються ваги моделі та робочі дані. За достатньо швидкого обміну між прискорювачами така конфігурація дає змогу ефективно розподіляти завдання між кількома картами та запускати генеративні моделі масштабу сотень мільярдів параметрів. Це вже типовий запит у тих, хто будує комерційні сервіси.
Після додавання H200 NVL платформа Tensor Cloud покриває ще ширший діапазон AI/ML-навантажень. У нас є універсальні та більш економічні L4 і L40S. Є прискорювачі верхнього класу для важких завдань — H200 NVL, H100 та A100 NVL. Такий вибір важливий саме для інференсу, тобто для продуктивного виконання моделі й видачі відповідей користувачам або системам, оскільки одна й та сама модель на різних стадіях життєвого циклу потребує різного балансу пам’яті, пропускної спроможності та вартості.
Далі вмикаються платформні сервіси, без яких GPU в хмарі залишаються просто орендою «голих» обчислювальних ресурсів. У Tensor Cloud використовується технологія віртуалізації NVIDIA vGPU. Вона дає змогу виділяти прискорювач частинами — 1/8, 1/4, 1/2 — та підбирати ресурси під реальне навантаження. Для інференсу це часто забезпечує точніший контроль витрат залежно від фактичних потреб. Другий ефект — експлуатаційний: завдяки технології віртуалізації забезпечується висока доступність, включно з нульовим вікном обслуговування за рахунок можливості міграції робочих навантажень між GPU-хостами без переривання роботи.
Розвиток не обмежується IaaS-шаром. Для cloud-native інфраструктур у нас є базові PaaS-сервіси, такі як managed Kubernetes (керований Kubernetes), S3-сумісне об’єктне сховище, балансувальник навантаження (load balancer). На перший квартал 2026 року заплановано запуск сервісу Database as a Service. Водночас для корпоративних і персональних даних, де принципово важлива приватність, ми забезпечуємо механізми захисту та контролю. Обробка залишається під управлінням замовника, що часто виявляється критично важливим для комплаєнсу.
За нашими розрахунками, підсумкова вартість використання Tensor Cloud є нижчою за вартість гіперскейлерів до 35% у зіставних сценаріях. У сукупності чинників це формує розвинену та економічно обґрунтовану платформу для інференсу в Україні. Також ми розробили й упровадили сервіс AI Studio — хмарне low-code/no-code середовище для експериментів із генеративними моделями та для продуктивного інференсу, що включає бібліотеку моделей. Цей сервіс працює з усім спектром GPU, включно з H200 NVL, тож логічно розглянути його окремо.