Головна Блог компанії De Novo Як підготувати ІТ-інфраструктуру до зими: десять практичних порад від De Novo

Як підготувати ІТ-інфраструктуру до зими: десять практичних порад від De Novo

2025-10-16

Артем Малюк

Дізнайтесь, як захистити бізнес від блекаутів узимку 2025. De Novo ділиться перевіреними практиками автономної роботи та резервування ІТ-інфраструктури.

Після блекаутів 2022–2023 років безперебійність ІТ-інфраструктури стала базовою вимогою. Бізнес більше не панікує, а системно готується: будує резерви, дублює сервіси, переводить навантаження у хмару. De Novo разом із партнерами напрацювали дієві практики — від DR-планів до готовності персоналу. Висока ймовірність відключень узимку 2025 року лише підкріплює цей підхід. Артем Малюк, досвідчений фахівець De Novo, ділиться порадами для забезпечення стійкості бізнесу у зимовий період.

«У 2025 році більшість компаній уже мають необхідні інструменти — але навіть найкраща техніка потребує уваги. Акумулятори ДБЖ з часом деградують, генератори потребують обслуговування, паливо втрачає властивості, а DR-плани часто є лише на папері. Без регулярного тестування, контролю й оновлення інвестиції в енергетичну безпеку можуть виявитися марними. De Novo, як оператор хмарних сервісів й дата-центрів, має реальний досвід роботи під час найскладніших енергетичних криз. Ми не лише підтримували власну інфраструктуру, а й забезпечували стабільність десятків клієнтів — банків, державних установ, телекомів, рітейлерів. Практичний досвід показав, що головне в підготовці до блекаутів — не техніка, а системність: регулярне тестування, документування, визначення пріоритетів, навчання команди» — каже Артем.

Ось десять практичних рекомендацій стосовно того, як підготуватися до можливих блекаутів. Поради повністю ґрунтуються на досвіді компанії De Novo та практиках партнерів й охоплюють не лише технічні питання, але й організаційні аспекти роботи в екстремальних умовах.

Регулярно тестуйте ДБЖ та генератори у реальних умовах

Не лише технічне обслуговування, а й повна перевірка запуску під навантаженням має бути стандартною процедурою. Практика показує: під час «сухих» тестів усе працює, але при реальному навантаженні батареї можуть сісти за кілька хвилин. Тому мінімум раз на квартал слід імітувати відключення всього сегмента мережі — так, як це може статися у реальній аварії. Акумулятори ДБЖ варто міняти кожні 3–5 років (залежно від типу), а паливо для генераторів зберігати не довше ніж 6–12 місяців. Помилка, яку часто роблять компанії: перевіряють лише пуск генератора, але не тестують його під повним навантаженням.

У дата-центрах De Novo застосовується практика навантажувальних тестів (load bank test) — підключення активного резистивного навантаження для перевірки генератора в реальних умовах споживання. Це дозволяє виміряти струмові навантаження, температуру обмоток й відстежити деградацію компонентів. Корисно також вести журнал запусків і тестів: у ньому фіксуються години роботи, витрати палива, температурні аномалії та час перемикання. Такий облік допомагає передбачити збої ще до їх виникнення.

Налаштуйте механізми балансування навантаження та відмовостійкості сервісів

Налаштування кластерів, реплікацій і автоматичного перемикання між дата-центрами або зонами доступності має бути не одноразовою дією, а постійним процесом перевірки. Лише налаштування кластера недостатньо — потрібне регулярне «хаос-тестування», коли вузли навмисне виводяться з ладу, щоб перевірити, чи справді працює автоматичний фейловер (failover). Орієнтир для бізнес-критичних систем: RTO < 30 хвилин, RPO від 5 хвилин. Це означає, що дані не повинні втрачатися більш ніж за 5 хвилин до інциденту, а час повного відновлення сервісу не має перевищувати півгодини.

На практиці у багатьох компаніях кластери налаштовані, але ніхто ніколи не вимикав вузол навмисно. Через це фейловер залишається теоретичним. Спеціалісти De Novo проводять такі тести у симульованому середовищі, де окремі компоненти навмисно відключаються, щоб перевірити поведінку сервісів. Якщо ваша компанія використовує публічну або приватну хмару, перевірте, чи підтримує вона автоматичне перемикання між зонами доступності (AZ failover). Для критичних застосунків бажано також мати реплікацію між незалежними ЦОД, навіть якщо один із них — зовнішній провайдер. Додатково варто документувати всі залежності між сервісами, щоб уникнути каскадних відмов. У багатьох ІТ-ландшафтах одна забута внутрішня інтеграція або DNS-запис може заблокувати запуск усієї системи після аварії.

Перевірка та оновлення плану аварійного відновлення (DRP)

Регулярне відпрацювання сценаріїв аварій, включно з людським фактором, комунікаціями та взаємодією з партнерами, — це ключ до реальної готовності. У багатьох компаній є лише «паперові плани», які створювалися формально або давно не оновлювалися. Найкраща практика — комбінувати два підходи: tabletop exercise, коли команда обговорює сценарій на рівні теорії, та живі навчання, під час яких перевіряється практичне виконання процедур.

Для банків чи e-commerce оптимальна частота — раз на квартал, причому бажано залучати нічні зміни та проводити навчання також у вихідні дні. Саме під час таких «нестандартних» тренувань виявляються слабкі місця у комунікаціях. Людський фактор — найуразливіше місце будь-якого DR-процесу: менеджери часто не знають, кому телефонувати першим, або не мають актуальних контактів партнерів. Корисно документувати кожен тест DRP із висновками та переліком дій, які слід покращити. Практика De Novo в тому, що після кожного тренування оновлюється база знань: фіксуються час реакції, рішення про перемикання, які системи та як саме спрацювали. Робляться висновки стосовно того, чи потребує система змін у конфігурації або інструкціях.

Моніторинг критичних систем у режимі 24/7

Моніторинг має бути не просто індикатором відмов, а активною системою, що попереджає про потенційні ризики — перегрів, перевантаження, низький рівень заряду ДБЖ чи палива. Однак у реальних аваріях моніторинг іноді теж «падає». Щоб уникнути цього, канали сповіщень потрібно дублювати: окрема система SMS через GSM-модем, резервний месенджер-бот, e-mail, push-сповіщення. Тестування таких каналів слід проводити не рідше одного разу на місяць. Заздалегідь підготуйте шаблони повідомлень про можливі збої, щоб під час інциденту не витрачати час на формулювання. Корисно створити резервну статус-сторінку на зовнішньому хостингу, яка залишатиметься доступною навіть у разі збою основної інфраструктури.

Важливо призначити відповідальних за комунікацію з клієнтами, щоб уникнути дублювання або суперечливої інформації. Часто саме хаотичні повідомлення з різних каналів призводять до паніки серед користувачів, навіть якщо реальна проблема не критична. У De Novo резервні канали зв’язку з клієнтами та внутрішні оповіщення тестуються окремо, із записом усіх повідомлень у лог для подальшого аналізу.

Резервування та тестування каналів постачання ключових ресурсів

Паливо, запчастини, обладнання для заміни — усе це має бути доступним у разі тривалого відключення. Європейські дата-центри орієнтуються на запас палива, який забезпечує щонайменше 72 години автономної роботи, а для критичних систем — до семи діб. В Україні доцільно мати запас щонайменше на 48–72 години для кожного об’єкта та контракти щонайменше з двома постачальниками. Під час дефіциту один постачальник може просто не виконати свої зобов’язання. Тому критично мати альтернативу: контракти з кількома постачальниками в різних регіонах і, за можливості, «обмінні фонди» пального або обладнання з партнерами.

Додатково слід перевіряти умови зберігання палива — воно втрачає властивості через 6–12 місяців, особливо без стабілізаторів. Для великих резервуарів доцільно проводити аналіз якості пального раз на пів року. Ми, зокрема, використовуємо спеціальні паливні модулі із системою моніторингу рівня та контролем витрат у режимі реального часу, що мінімізує ризик нестачі або несанкціонованого використання.

Кібербезпека та захист від зовнішніх загроз

Блекаути створюють не лише технічні, а й кіберризики. У періоди нестабільності фіксується зростання фішингових атак у 2–3 рази, а кібершахраї активно використовують хаос і перевтому співробітників. Тому резервні системи мають бути захищені не гірше за основні. Під час перемикань та роботи в автономному режимі важливо зберігати усі базові принципи безпеки: багатофакторну автентифікацію (MFA), обмеження доступів, логування подій, сегментацію мережі. У періоди криз нерідко роблять фатальну помилку — вимикають MFA «щоб спростити вхід» або передають паролі у відкритому вигляді. Такі рішення підривають безпеку всієї інфраструктури.

Якщо у компанії працює SOC, її аналітики повинні відслідковувати інциденти з інтервалом не більше ніж 15 хвилин. Додатково варто налаштувати резервні джерела логів, щоб при збоях основних каналів моніторингу мати доступ до історії подій. Практика De Novo — використання принципу zero trust навіть під час блекаутів: жоден доступ до системи не надається без підтвердження через додатковий канал. Для клієнтів із підвищеними вимогами впроваджено тимчасові токени доступу з коротким строком дії, що мінімізує ризик компрометації.

Режим роботи обмеженої функціональності

Не завжди доцільно підтримувати всі сервіси у повному обсязі. Концепція Degraded Mode of Operation передбачає, що в разі енергетичної або технічної кризи система переходить у «режим мінімуму», зберігаючи лише критичні функції. Це дозволяє продовжити автономну роботу у 2–3 рази без втрати контрольованості процесів. Підготовка до такого режиму починається з класифікації всіх систем за рівнем важливості: критичні (ядро бізнесу), підтримувальні (допоміжні процеси) та неключові (аналітика, тестові середовища, R&D). У разі дефіциту ресурсів перші залишаються активними, другі працюють за скороченим графіком, треті вимикаються повністю.

На практиці багато компаній не мають чіткого переліку систем, які можна відключити, тому рішення приймаються хаотично. Це призводить до зупинки важливих процесів. Завчасне документування сценаріїв дає змогу уникнути помилок та зберегти продуктивність. В De Novo для таких ситуацій створено внутрішні сценарії «енергетичного профілювання»: система аналізує споживання потужності кожного компонента, визначає пріоритети та дозволяє швидко оптимізувати навантаження в ручному або автоматичному режимі.

Навчання персоналу та регулярні тренування

Навіть найкраща технологічна підготовка втрачає сенс без підготовлених людей. Усі ключові співробітники повинні чітко знати свої ролі, канали комунікації та порядок дій під час інцидентів.

Тренування мають бути регулярними й максимально наближеними до реальності. Найефективніші — несподівані: уночі, у вихідні або під час високого навантаження, коли стрес досягає піку. Такі сценарії дають найточніше уявлення про готовність команди. Для бізнес-критичних інфраструктур тренування проводяться щонайменше двічі на рік, а краще — щоквартально. Нових співробітників потрібно включати в ці процеси з перших днів, оскільки їхня відсутність у тренуваннях створює «сліпі зони».

У нашій компанії після кожного навчання проводиться детальний аналіз: часу реакції, координації між відділами, технічних труднощів. За результатами формується оновлений план дій та перелік можливих покращень. Така циклічність дозволяє утримувати команду у стані готовності, навіть коли загроза здається віддаленою.

Документування та аудит процедур

Кожен крок під час аварій має бути чітко прописаний і зрозумілий усім учасникам процесу. Документація повинна бути доступна офлайн — у друкованому вигляді в серверних приміщеннях, на планшетах з автономним живленням або на захищених флеш-накопичувачах. Усі інструкції, схеми та чек-листи мають регулярно оновлюватися. Оптимальний інтервал — не рідше ніж раз на пів року, а у фінансовому секторі або телекомі — щоквартально.

Часто документацію оновлюють «заднім числом» після інцидентів, але це хибна практика. Актуалізація має бути плановою, із фіксацією відповідальних та контрольних дат. Наш досвід показує, що найкращий підхід — ведення централізованої бази аварійних сценаріїв та іх регулярний аналіз чи перегляд для підтримки в актуальному стані.

Юридична готовність

Окремо варто перевірити юридичні аспекти готовності компанії до тривалих відключень, які по-факту, створюють не лише технічні, а й договірні ризики. Проведіть аудит контрактів із клієнтами: чи передбачена у них відповідальність за недотримання SLA через форс-мажорні обставини. Формулювання «форс-мажор» має прямо покривати випадки масштабних енергетичних відключень. У багатьох компаніях це питання залишається поза увагою, і під час кризи клієнти можуть вимагати компенсацій. Для підвищення прозорості рекомендується вести журнал інцидентів, у якому фіксуються всі аварії, рішення та наслідки. Це допомагає не лише покращувати внутрішні процедури, а й обґрунтовано пояснювати клієнтам виконання умов SLA у форс-мажорних ситуаціях.

Зима 2025 року може знову стати випробуванням для українських компаній. Але тепер бізнес зустрічає ці ризики не з острахом, а з досвідом. За останні два роки сформувалася нова корпоративна культура готовності до потенційних проблем. Компанії розуміють, що безперервність бізнесу залежить не лише від генератора чи ДБЖ, а й від системного підходу: навченої команди, протестованих сценаріїв, актуальних документів та продуманих каналів комунікації.

De Novo пройшла крізь найскладніші фази енергетичної нестабільності, зберігаючи роботу хмарних сервісів і дата-центрів для наших клієнтів. Головний висновок цього досвіду — стійкість ІТ-інфраструктури досягається не лише надійним обладнанням але й дисципліною. Коли кожен процес відпрацьований, а кожен співробітник знає свою роль, навіть тривалий блекаут не призведе до неочікуваного простою.

ЦОД