Государственное облако сгорело дотла: почему Южная Корея потеряла свои данные
2025-10-13
De Novo Cloud Expert
Пожар в южнокорейском дата-центре Национальной службы информационных ресурсов уничтожил облако G-Drive и парализовал сотни государственных систем. Инцидент, вызванный взрывом литий-ионной батареи ИБП, вскрыл опасную централизацию и слабость систем резервирования.
26 сентября в южнокорейском городе Дэчжон загорелся один из ключевых центров данных страны, принадлежащий Национальной службе информационных ресурсов (NIRS). Огонь, причиной которого стало возгорание литий-ионной батареи во время перемещения ИБП, уничтожил ИТ-оборудование, включая серверы и системы хранения данных, а также повредил кабельные магистрали. Пожар бушевал почти сутки.
Без возможности восстановления
Самое страшное — полностью уничтожено государственное облачное хранилище G-Drive, которым пользовались 125 тыс. служащих из 74 министерств. Вместе с G-Drive погибли все рабочие материалы, накопленные за последние восемь лет, общим объемом почти в петабайт. Все документы (а также изображения, сканы и пр.) часто существовали здесь в единственном экземпляре. В отличие от других госсервисов, данные G-Drive не подлежат восстановлению. Как сообщил СМИ источник в Министерстве внутренних дел Южной Кореи — из-за большого объема, резервные копии на других площадках не делались. В то же время, остальные 95, которые также пострадали из-за пожара имеют бэкапы и будут восстановлены.
Сотрудники министерств и ведомств в панике пытаются отыскать остатки данных по почтовым ящикам сотрудников и локальным ПК, но это уже раскопки. Тем не менее, есть надежда, что хотя бы часть данных в том или ином виде сохранилась на других площадках NIRS.
Всего де пожар затронул 650 сервисов Национальной службы. В течение первой недели удалось восстановить лишь 85. Учитывая, что NIRS оперирует примерно 1600 сервисами, выходит, что один пожар разом положил 40% из них. По оценкам корейских специалистов, на устранение последствий и полный перезапуск всех сервисов понадобится не менее двух месяцев.
Почему важно соблюдать регламенты
Пожар начался с того, что одну из батарей ИБП отключили для переноса в подвал, чтобы «снизить риск» и отдалить её от серверов. Но в процессе работы инженеры, вероятно, разорвали цепь под нагрузкой, вызвав скачок напряжения. Это стало триггером цепной термической реакции: одна ячейка перегрелась, температура поднялась выше 300°C, соседние батареи загорелись, и огонь перекинулся на стойки. По данным СМИ литий-ионные модули производства LG Energy Solution были установлены в 2012–2013 годах и срок их службы уже превысил рекомендованные для таких систем 10 лет. При этом проверки АКБ проводились регулярно, последняя — в июне 2025 года. Вторая фатальная проблема — расстояние от батарей до серверов составляло всего 60 см. Т.е. барьера между источником возгорания и вычислительной техникой по сути не было.
Пожарные, прибывшие по вызову тоже не сразу разобрались в обстановке и решили использовать для тушения углекислоту (которая плохо подходит для тушения литий-ионных аккумуляторов) вместо воды, чтобы не залить серверы. Это решение оказалось ошибочным: тепло после термического пробоя Li-ion-модулей не удалось отвести, химическая реакция продолжалась. Все аккумуляторы, почти четыре сотни, были уничтожены, вместе с ними — серверы, СХД и другое оборудование, расположенное в том же помещении. В целом же, тушение Li-ion батарей требует специальных технологий и навыков, которых не было ни у пожарных ни у персонала ЦОД.
Ошибки были и в архитектуре ИТ-системы. Объект не имел дублирующих площадок. Хотя, формально NIRS располагал тремя территориально удаленными дата-центрами, фактически, основная нагрузка была сконцентрирована в Дэчжоне. Резервная инфраструктура не была подготовлена — тесты failover-сценариев не проводились, инструкций по аварийному переключению не существовало. Налицо — недопустимая централизация и переоценка надежности одного «узла».
Эксперты IDC Asia/Pacific отмечают, что даже в крупных организациях политики резерирования часто носят номинальный характер и есть только на бумаге. В то время, как географически распределенные ИТ-системы эффективны для защиты только при регулярных учениях. DR-план без практики — это инструкция, а не система. Многие руководители воспринимают резервирование как формальность, но в момент инцидента каждая минута дорога и надо знать, что и как делать.
«Дело вовсе не в том, почему и как произошла техногенная авария в дата-центре. Проблема — в принятии внешне простого решения, которое не предусматривает подобных аварий и не учитывает их последствий. Отсутствие единого архитектурного подхода и стратегической цели, подмена понятия “эффективный контроль над чем-то” на “владение чем-то”, отсутствие понятной ответственности за последствия — это любимая игрушка большинства чиновников в мире. Однако механизм защиты и восстановления данных, контроль этой процедуры — слишком сложны для государственной бюрократии. К сожалению, в Украине всё это также процветает», — комментирует инцидент Максим Агеев, CEO компании De Novo.
В случае с дата-центром в Дэчжоне совпало сразу несколько негативных моментов — централизованная архитектура без DR или достаточных бэкапов, устаревшие батареи рядом с серверами, несогласованные действия персонала, отсутствие подходящих систем пожаротушения. Все это сыграло свою роковую роль. При этом, как было отмечено, ряд систем все же имел резервные копии, что позволяет надеяться на их восстановление, в отличие от G-Drive.
Отметим что по данным корейского Минэнерго, за 2018–2022 годы в стране зарегистрировано 55 пожаров, связанных с ИБП. Основная причина — упрощённые схемы безопасности в системах питания. Возможно, поэтому, комментируя инцидент, президент страны Ли Чжэ Мён назвал его «предсказуемым» и распорядился немедленно провести аудит всей государственной ИТ-инфраструктуры. Что ж, лучше поздно, чем никогда.
Нам же стоит поучится на чужих ошибках.