Вы наверняка слышали, что 28 февраля сервис AWS (Amazon Web Services) испытывал огромные проблемы. Проблема затронула тысячи сайтов, включая такие известные, как Slack или Medium. Многие сайты стали или недоступны полностью, на некоторых оказывались неработающие ссылки и незагруженные изображения.
Как оказалось, проблема затронула S3 – крупнейший из сервисов Amazon, используемый для хранения данных в облаке. Источником проблемы послужила всего лишь опечатка в одной из команд, которую запустили сотрудники S3.
Если облака для вас
не просто теория
Широкий спектр услуг
по выделенным северам
и мультиклауд-решениям
Конфигурация VPS и бесплатный тест уже через 2 минуты
Организация вашей IT-инфраструктуры на основе мультиклауд-решения
Как сообщает Amazon, сотрудники S3 должны были в рамках действующей процедуры поддержки, вывести из «продакшна» небольшое количество серверов. Но из-за опечатки, отключенных серверов оказалось значительно больше, причем те, которые были отключены, поддерживали другие системы S3.
Чтобы восстановить работоспособность, потребовался полный рестарт всей системы. Этот процесс продлился порядка 5 часов, для некоторых сайтов работоспособность была восстановлена быстрее – порядка 3,5 часов. Компания называет масштабность своего сервиса в качестве главной причины, почему восстановление длилось так долго, и пообещала внести изменения во внутренние системы и процедуры, чтобы не допустить такого в будущем.
По материала eWeek