Главное, 24 окт, 14:08

Amazon объяснила, почему из-за нее отключились умные матрасы и Signal

Amazon объяснила, что сбой в работе AWS 19–20 октября произошел из-за ошибки в системе обновления DNS. Две программы одновременно изменили адреса серверов и случайно стерли правильные данные — и множество сервисов стало недоступно
Читать в полной версии
Фото: Almaas Masood / Reuters

Компания Amazon раскрыла подробности масштабного сбоя в работе облачной платформы Amazon Web Services (AWS), который произошел 19–20 октября и затронул миллионы пользователей по всему миру.

Неполадки в регионе Северная Вирджиния привели к сбоям в работе популярных сервисов, включая Signal, Snapchat, Roblox, Zoom, Duolingo.

Amazon Web Services — самая распространенная в мире облачная платформа, на нее полагаются миллионы клиентов, в том числе стартапы, крупнейшие корпорации и правительственные учреждения, отмечается на сайте AWS.

В официальном техническом отчете Amazon пояснила, что сбой был вызван дефектом в системе управления DNS облачной базы данных Amazon DynamoDB.

Ошибка случилась из-за того, что две автоматические системы Amazon, отвечающие за обновление адресов серверов (DNS), начали работать одновременно и «перепутали» свои действия.

Одна система сильно замедлилась и применяла устаревшие данные, в то время как вторая работала быстро и уже обновила все адреса. Когда первая наконец закончила свою работу, она — не зная, что данные изменились, — перезаписала новые настройки старыми. Затем вторая система автоматически удалила эти «старые» записи, что обнулило все адреса серверов и сделало сервис DynamoDB временно недоступным.

«Из-за удаления активного плана система осталась в несогласованном состоянии, что не позволяло <…> применять последующие обновления плана. Эта ситуация в конечном итоге потребовала ручного вмешательства оператора для исправления», — говорится в сообщении пресс-службы Amazon.

Компания заявила, что уже отключила сбойные процессы обновления DNS, внедрила дополнительные меры защиты и тестирования для предотвращения подобных инцидентов в будущем.

«Приносим извинения за ущерб, нанесенный этим событием нашим клиентам. Несмотря на то что мы имеем богатый опыт предоставления услуг с высочайшим уровнем доступности, мы понимаем, насколько критически важны наши услуги для наших клиентов, их приложений, конечных пользователей и их бизнеса», — добавили в компании.

Читайте РБК в Telegram.

В мире — «великая передача богатства». Кто от нее выиграет
ФНС против четырех новых налоговых схем. Кейсы
Лейблы создали российский стандарт «золотых» и «бриллиантовых» альбомов
Американским беби-бумерам принадлежат $80 трлн. Почему это злит молодежь
Проклятие Nokia. Спасет ли на этот раз компанию $1 млрд инвестиций
Как бизнесу выйти на рынок b2g и почему не стоит бояться госсектора
К вам придут раньше. Почему подрядчику не стоит слепо верить госзаказчику
Замедление YouTube обрушило траты рекламщиков на него в России на треть