Меню
Главная Блог компании De Novo Сбоев в работе дата-центров становится относительно меньше, но обходятся они всё дороже
Сбоев в работе дата-центров становится относительно меньше, но обходятся они всё дороже

Сбоев в работе дата-центров становится относительно меньше, но обходятся они всё дороже

2024-05-06

Заметных инцидентов в работе дата-центров год от года становится все меньше и это мировая тенденция. В то же время стоимость минуты простоя теперь обходится гораздо дороже, чем раньше. Главными источниками аварий остаются электрическое оборудование и человеческий фактор.

Рынок дата-центров растет, как минимум, последние десять лет, а с недавних пор ускорение ему придал также спрос на технологии AI/ML. Площадь и мощность ЦОД по всему миру увеличивается, объекты на 100 МВт и более уже не являются единичными. Вместе со спросом на услуги увеличивается и нагрузка на оборудование. Вместе с тем, по данным нового исследования Annual Outage Analysis 2024, проведенного Uptime Institute, в последние несколько лет наблюдается устойчивая тенденция к снижению частоты и серьезности сбоев относительно объемов роста ИТ-мощностей. Это значит, что хотя в абсолютных цифрах инцидентов стало больше, но темпы их прироста существенно ниже, чем объемы наращивания самих ИТ-ресурсов. Т.е., показатель отказов в расчете на 1 МВт введенной мощности сокращается.

Миллион за аварию

Одной из причин стало то, что операторы сервисов, коммерческие компании и государственные организации стали уделять больше внимания вопросам обеспечения резервирования и отказоустойчивости оборудования ЦОД. Вместе с тем, специалисты Uptime Institute предупреждает, что к данным о количестве сбоев, следует относиться осторожно, поскольку часто они являются коммерческой тайной и компании, пережившие аварии, склонны скрывать последствия. Тем не менее, ежегодно по миру фиксируется до двух десятков крупных аварий, ставших достоянием общественности.

 

 Источник изображения: Uptime Institute
Источник: Uptime Institute

 

В самом отчете есть ряд примечательных цифр. Так, по данным Uptime, свыше 55% опрошенных операторов сообщили о том, что за последние три года в их дата-центрах случались сбои или аварии. Для сравнения — в отчете 2023 года таковых было 60%, а еще годом ранее — почти 70%. Налицо явная тенденция к снижению числа инцидентов. Тем не менее, 54% респондентов сообщили, что последний по времени крупный сбой в работе обошелся с сумму, превышающую $100 тыс., а 16% сказали, что авария стоила более $1 млн.

Самым распространённым источником аварий остается система электропитания, отказы которой стали причиной нарушений в работе ЦОД в 52% случаев. В отчете аналитики Uptime очень осторожно намекают на то, что, возможно, к числу потенциальных причин, снижающих надежность энергосистемы ЦОД, стоит отнести переход на возобновляемые источники энергии и вызванную этим «динамичность» (фактически, нарушение стабильности) электросетей, питающих дата-центры. Отмечается, что значительная часть отключений энергии происходит, когда ИБП или ДГУ не успевает среагировать на сбой во внешней сети.

 Источник изображения: Uptime Institute
Источник: Uptime Institute

 

Характерный пример такой аварии был отмечен в прошлом году у Microsoft. Тогда, напомним, из-за сбоя в электроснабжении дата-центр перешел на питание от генераторов, но не все они заработали вовремя. В результате случился сбой в работе сервисов Azure на территории Западной Европы.

Второй по распространённости источник сбоев — выход из строя охлаждающего оборудования. Из свежих примеров — в прошлом году из-за сбоя системы охлаждения в дата-центре Equinix, клиенты банков DBS и Citibank не смогли провести 2,5 млн транзакций.

И снова человеческий фактор

Независимо от того, какая инженерная подсистема вышла из строя, в самой основе аварий, чаще всего лежит человеческий фактор и гораздо реже — объективные причины непреодолимого характера. Умышленное или случайное нарушение персоналом регламентов, инструкций и процедур по работе с оборудованием ЦОД, является глубинной причиной сбоев примерно в трех случаях из четырех.

Неудивительно, что на этом фоне эксперты Uptime Institute советуют в первую очередь более обстоятельно подходить к вопросу подбора, обучения и проверки квалификации сотрудников, работающих с оборудованием. Именно здесь аналитики видят потенциал для существенного снижения числа сбоев.

Отметим, что ЦОД компании De Novo, за более чем 15 лет работы не останавливался ни на минуту, обеспечивая клиентам 100% доступности. А наши опытные технические специалисты регулярно проходят обучение и подтверждают свою квалификацию сертификатами. Если вам нужен надежный безотказный ЦОД, а также современные облачные сервисы IaaS и PaaS — обращайтесь к нам за консультацией

© 2008—2024 De Novo (Де Ново)