Как подготовить ИТ-инфраструктуру к зиме: десять практических советов от De Novo
2025-10-16
Узнайте, как защитить бизнес от блэкаутов зимой 2025 года. De Novo делится проверенными практиками автономной работы и резервирования IT-инфраструктуры.
После блэкаутов 2022–2023 годов бесперебойность IT-инфраструктуры стала базовым требованием. Бизнес больше не паникует, а системно готовится: создает резервы, дублирует сервисы, переводит нагрузку в облако. De Novo совместно с партнерами наработали действенные практики — от планов аварийного восстановления (DR-планов) до готовности персонала. Высокая вероятность отключений зимой 2025 года только подкрепляет этот подход. Артем Малюк, опытный специалист De Novo, делится десятью советами для зимней устойчивости бизнеса.
Главное — системность
В 2025 году большинство компаний уже имеют необходимые инструменты — но даже лучшая техника требует внимания. Аккумуляторы ИБП со временем деградируют, генераторы нуждаются в обслуживании, топливо теряет свойства, а DR-планы часто существуют только на бумаге. Без регулярного тестирования, контроля и обновления инвестиции в энергетическую безопасность могут оказаться напрасными.
De Novo как оператор облачных сервисов и дата-центров имеет реальный опыт работы во время самых сложных энергетических кризисов. Мы не только поддерживали собственную инфраструктуру, но и обеспечивали стабильность десятков клиентов — банков, государственных учреждений, телекомов, ритейлеров. Практический опыт показал, что главное в подготовке к блэкаутам — не техника, а системность: регулярное тестирование, документирование, определение приоритетов, обучение команды.
Мы подготовили десять рекомендаций, как подготовиться к возможным блэкаутам. Советы полностью основаны на опыте компании De Novo и практиках партнёров и охватывают не только технические вопросы, но и организационные аспекты работы в экстремальных условиях.
Регулярно тестируйте ИБП и генераторы в реальных условиях
Не только техническое обслуживание, но и полная проверка запуска под нагрузкой должна быть стандартной процедурой. Практика показывает: во время «сухих» тестов всё работает, но при реальной нагрузке батареи могут сесть за несколько минут. Поэтому минимум раз в квартал следует имитировать отключение всего сегмента сети — так, как это может произойти при реальной аварии. Аккумуляторы ИБП стоит менять каждые 3–5 лет (в зависимости от типа батарей), а топливо для генераторов хранить не дольше 6–12 месяцев. Ошибка, которую часто совершают компании: проверяют только запуск генератора, но не тестируют его под полной нагрузкой.
В дата-центрах De Novo применяется практика нагрузочных тестов (load bank test) — подключение активной резистивной нагрузки для проверки генератора в реальных условиях потребления. Это позволяет измерить токовые нагрузки, температуру обмоток и отследить деградацию компонентов. Полезно также вести журнал запусков и тестов: в нём фиксируются часы работы, расход топлива, температурные аномалии и время переключения. Такой учёт помогает предсказать сбои ещё до их возникновения.
Настройте механизмы балансировки нагрузки и отказоустойчивости сервисов
Настройка кластеров, репликаций и автоматического переключения между дата-центрами или зонами доступности должна быть не одноразовым действием, а постоянным процессом проверки. Одной настройки кластера недостаточно — нужно регулярное «хаос-тестирование», когда узлы намеренно выводятся из строя, чтобы проверить, действительно ли работает автоматический фейловер (failover). Ориентир для бизнес-критичных систем: RTO < 30 минут, RPO от 5 минут. Это означает, что данные не должны теряться более чем за 5 минут до инцидента, а время полного восстановления сервиса не должно превышать получаса.
На практике во многих компаниях кластеры настроены, но никто никогда не отключал узел намеренно. Из-за этого фейловер остаётся теоретическим. Специалисты De Novo проводят такие тесты в смоделированной среде, где отдельные компоненты намеренно отключаются, чтобы проверить поведение сервисов. Если ваша компания использует публичное или частное облако, проверьте, поддерживает ли оно автоматическое переключение между зонами доступности (AZ failover). Для критичных приложений желательно также иметь репликацию между независимыми ЦОД, даже если один из них — внешний провайдер. Дополнительно стоит документировать все зависимости между сервисами, чтобы избежать каскадных отказов. Во многих ИТ-ландшафтах одна забытая внутренняя интеграция или DNS-запись может заблокировать запуск всей системы после аварии.
Проверка и обновление плана аварийного восстановления (DRP)
Регулярная отработка сценариев аварий, включая человеческий фактор, коммуникации и взаимодействие с партнёрами, — это ключ к реальной готовности. Во многих компаниях есть только «бумажные планы», которые создавались формально или давно не обновлялись. Лучшая практика — комбинировать два подхода: tabletop exercise, когда команда обсуждает сценарий на уровне теории, и живые учения, во время которых проверяется практическое выполнение процедур.
Для банков или e-commerce оптимальная частота — раз в квартал, причём желательно привлекать ночные смены и проводить учения также в выходные дни. Именно во время таких «нестандартных» тренировок выявляются слабые места в коммуникациях. Человеческий фактор — самое уязвимое место любого DR-процесса: менеджеры часто не знают, кому звонить первым, или не имеют актуальных контактов партнёров. Полезно документировать каждый тест DRP с выводами и перечнем действий, которые следует улучшить. Практика De Novo в том, что после каждой тренировки обновляется база знаний: фиксируются время реакции, решения о переключении, какие системы и как именно сработали. Делают выводы о том, требует ли система изменений в конфигурации или инструкциях.
Мониторинг критических систем в режиме 24/7
Мониторинг должен быть не просто индикатором отказов, а активной системой, предупреждающей о потенциальных рисках — перегреве, перегрузке, низком уровне заряда ИБП или топлива. Однако при реальных авариях мониторинг иногда тоже «падает». Чтобы избежать этого, каналы оповещений нужно дублировать: отдельная система SMS через GSM-модем, резервный мессенджер-бот, e-mail, push-уведомления. Тестирование таких каналов следует проводить не реже одного раза в месяц. Заранее подготовьте шаблоны сообщений о возможных сбоях, чтобы во время инцидента не тратить время на формулировку. Полезно создать резервную статус-страницу на внешнем хостинге, которая останется доступной даже в случае сбоя основной инфраструктуры.
Важно назначить ответственных за коммуникацию с клиентами, чтобы избежать дублирования или противоречивой информации. Часто именно хаотичные сообщения из разных каналов вызывают панику среди пользователей, даже если реальная проблема не критична. В De Novo резервные каналы связи с клиентами и внутренние оповещения тестируются отдельно, с записью всех сообщений в лог для последующего анализа.
Резервирование и тестирование каналов поставки ключевых ресурсов
Топливо, запчасти, оборудование для замены — всё это должно быть доступно в случае длительного отключения. Европейские дата-центры ориентируются на запас топлива, обеспечивающий как минимум 72 часа автономной работы, а для критических систем — до семи суток. В Украине целесообразно иметь запас не менее чем на 48–72 часа для каждого объекта и контракты как минимум с двумя поставщиками. Во время дефицита один поставщик может просто не выполнить свои обязательства. Поэтому критически важно иметь альтернативу: контракты с несколькими поставщиками в разных регионах и, по возможности, «обменные фонды» топлива или оборудования с партнёрами.
Дополнительно следует проверять условия хранения топлива — оно теряет свойства через 6–12 месяцев, особенно без стабилизаторов. Для больших резервуаров целесообразно проводить анализ качества топлива раз в полгода. Мы, в частности, используем специальные топливные модули с системой мониторинга уровня и контролем расхода в режиме реального времени, что минимизирует риск нехватки или несанкционированного использования.
Кибербезопасность и защита от внешних угроз
Блэкауты создают не только технические, но и киберриски. В периоды нестабильности фиксируется рост фишинговых атак в 2–3 раза, а кибермошенники активно используют хаос и усталость сотрудников. Поэтому резервные системы должны быть защищены не хуже основных. Во время переключений и работы в автономном режиме важно сохранять все базовые принципы безопасности: многофакторную аутентификацию (MFA), ограничение доступов, логирование событий, сегментацию сети. В периоды кризисов нередко совершают фатальную ошибку — отключают MFA «чтобы упростить вход» или передают пароли в открытом виде. Такие решения подрывают безопасность всей инфраструктуры.
Если в компании работает SOC, её аналитики должны отслеживать инциденты с интервалом не более 15 минут. Дополнительно стоит настроить резервные источники логов, чтобы при сбоях основных каналов мониторинга иметь доступ к истории событий. Практика De Novo — использование принципа zero trust даже во время блэкаутов: никакой доступ к системе не предоставляется без подтверждения через дополнительный канал. Для клиентов с повышенными требованиями внедрены временные токены доступа с коротким сроком действия, что минимизирует риск компрометации.
Режим работы ограниченной функциональности
Не всегда целесообразно поддерживать все сервисы в полном объёме. Концепция Degraded Mode of Operation предусматривает, что в случае энергетического или технического кризиса система переходит в «режим минимума», сохраняя только критические функции. Это позволяет продлить автономную работу в 2–3 раза без потери управляемости процессами. Подготовка к такому режиму начинается с классификации всех систем по уровню важности: критические (ядро бизнеса), поддерживающие (вспомогательные процессы) и некритичные (аналитика, тестовые среды, R&D). В случае дефицита ресурсов первые остаются активными, вторые работают по сокращённому графику, третьи выключаются полностью.
На практике многие компании не имеют чёткого перечня систем, которые можно отключить, поэтому решения принимаются хаотично. Это приводит к остановке важных процессов. Заблаговременное документирование сценариев позволяет избежать ошибок и сохранить производительность. В De Novo для таких ситуаций созданы внутренние сценарии «энергетического профилирования»: система анализирует потребление мощности каждого компонента, определяет приоритеты и позволяет быстро оптимизировать нагрузку в ручном или автоматическом режиме.
Обучение персонала и регулярные тренировки
Даже лучшая технологическая подготовка теряет смысл без подготовленных людей. Все ключевые сотрудники должны чётко знать свои роли, каналы коммуникации и порядок действий во время инцидентов.
Тренировки должны быть регулярными и максимально приближенными к реальности. Наиболее эффективные — неожиданные: ночью, в выходные или во время высокой нагрузки, когда стресс достигает пика. Такие сценарии дают самое точное представление о готовности команды. Для бизнес-критичных инфраструктур тренировки проводятся как минимум дважды в год, а лучше — ежеквартально. Новых сотрудников нужно включать в эти процессы с первых дней, поскольку их отсутствие в тренировках создаёт «слепые зоны».
В нашей компании после каждого обучения проводится детальный анализ: времени реакции, координации между отделами, технических трудностей. По результатам формируется обновлённый план действий и перечень возможных улучшений. Такая цикличность позволяет удерживать команду в состоянии готовности, даже когда угроза кажется далёкой.
Документирование и аудит процедур
Каждый шаг во время аварий должен быть чётко прописан и понятен всем участникам процесса. Документация должна быть доступна офлайн — в печатном виде в серверных помещениях, на планшетах с автономным питанием или на защищённых флеш-накопителях. Все инструкции, схемы и чек-листы должны регулярно обновляться. Оптимальный интервал — не реже чем раз в полгода, а в финансовом секторе или телекоме — ежеквартально.
Часто документацию обновляют «задним числом» после инцидентов, но это ошибочная практика. Актуализация должна быть плановой, с фиксацией ответственных и контрольных дат. Наш опыт показывает, что лучший подход — ведение централизованной базы аварийных сценариев и их регулярный анализ или пересмотр для поддержания в актуальном состоянии.
Юридическая готовность
Отдельно стоит проверить юридические аспекты готовности компании к длительным отключениям, которые по факту создают не только технические, но и договорные риски. Проведите аудит контрактов с клиентами: предусмотрена ли в них ответственность за невыполнение SLA из-за форс-мажорных обстоятельств. Формулировка «форс-мажор» должна прямо охватывать случаи масштабных энергетических отключений. Во многих компаниях этот вопрос остаётся без внимания, и во время кризиса клиенты могут требовать компенсаций. Для повышения прозрачности рекомендуется вести журнал инцидентов, в котором фиксируются все аварии, решения и последствия. Это помогает не только улучшать внутренние процедуры, но и аргументированно объяснять клиентам выполнение условий SLA в форс-мажорных ситуациях.
Зима 2025 года может снова стать испытанием для украинских компаний. Но теперь бизнес встречает эти риски не со страхом, а с опытом. За последние два года сформировалась новая корпоративная культура готовности к потенциальным проблемам. Компании понимают, что непрерывность бизнеса зависит не только от генератора или ИБП, но и от системного подхода: обученной команды, протестированных сценариев, актуальных документов и продуманных каналов коммуникации.
De Novo прошла через самые сложные фазы энергетической нестабильности, сохраняя работу облачных сервисов и дата-центров для наших клиентов. Главный вывод этого опыта — устойчивость ИТ-инфраструктуры достигается не только надёжным оборудованием, но и дисциплиной. Когда каждый процесс отработан, а каждый сотрудник знает свою роль, даже продолжительный блэкаут не приведёт к неожиданному простою.