Поиск на сайте: Расширенный поиск


Новые программы oszone.net Читать ленту новостей RSS
CheckBootSpeed - это диагностический пакет на основе скриптов PowerShell, создающий отчет о скорости загрузки Windows 7 ...
Вы когда-нибудь хотели создать установочный диск Windows, который бы автоматически установил систему, не задавая вопросо...
Если после установки Windows XP у вас перестала загружаться Windows Vista или Windows 7, вам необходимо восстановить заг...
Программа подготовки документов и ведения учетных и отчетных данных по командировкам. Используются формы, утвержденные п...
Red Button – это мощная утилита для оптимизации и очистки всех актуальных клиентских версий операционной системы Windows...
OSzone.net Новости IT Неверная конфигурация серверов привела к падению сервисов Google RSS

Неверная конфигурация серверов привела к падению сервисов Google

Текущий рейтинг: 4.57 (проголосовало 7)
 Посетителей: 1207 | Просмотров: 1296 (сегодня 1)  Шрифт: - +

В начале прошлого года мы писали о том, что облачная платформа Windows Azure, принадлежащая Microsoft, испытала целую волну проблем, приведшую к выходу из строя сайтов и серверов компании и её клиентов. В этом году “сезон падений” открыла корпорация Google, чьи сервисы несколько дней назад упали на час. Поисковый гигант решил рассказать, что же всё-таки произошло.

Проблемы начались с одного из ключевых продуктов компании — GMail, пользователи которого при попытке захода в почтовый ящик получали заглушку с информацией о серверной ошибке. После этого, один за одним, начали выходить из строя другие сервисы компании — платформа Google+, являющаяся единым центром аутентификации пользователя, обрушила Google Music, Google Hangouts и YouTube. Услуги поиска, Google Drive и Android-каталог Google Play продолжили свою работу в штатном режиме. В течение часа Google изрядно лихорадило — сервисы то начинали работать, то вновь отключались, либо работали крайне медленно. Особый шарм ситуации придавал тот факт, что представители команды контроля работоспособности сервисов Google в момент проблем давали интервью пользователям популярного среди IT-энтузиастов Интернет-портала Reddit. Таким образом, стоило старшим инженерам отлучиться от своих обязанностей, как инфраструктура Google прилегла отдохнуть.

*
Увеличить рисунок

По итогам внутреннего расследования выяснилось, что обновленное программное обеспечение одого из управляющих серверов компании содержало в себе баг, который приводил к ошибочной настройке конфигурирующих файлов, рассылаемых подчинённым серверам. Они в свою очередь обладали собственными службами контроля конфигураций, которые пытались сами себя приводить в порядок, из-за чего многие пользователи замечали, что сервисы компании начинали работать на короткое время. Тем не менее, управляющий сервер настойчиво рассылал повреждённые файлы конфигураций, и сервисы Google вновь становились неработоспособными. В итоге потребовалось вмешательство той самой службы, представители которой вместо вопросов в интервью получили порцию ироничных комментариев. Баг, портящий конфигурации управляющего сервера, был выявлен и ликвидирован спустя 12 минут после первых оповещений о проблемах. После этого ещё в течение 13 минут инфраструктура Google по всему миру приходила в себя. Таким образом, по подсчётам компании для подавляющего большинства пользователей некоторые сервисы были недоступны 25 минут. Тем не менее, около 10% пользователей Google испытывали проблемы ещё в течение получаса из-за механизмов кэширования и внеочередных процедур автообслуживания серверов компании.

Google принесла извинения за причинённые неудобства и пообещала, что такие ошибки в будущем исключены, так как был проведён глубокий аудит всех систем конфигурации на выявление подобных багов. Кроме того, к системе самоконтроля серверов были добавлены дополнительные автоматические проверки, которые попросту не допустят выполнение конфигурации, которая заведомо ошибочна. Также инженеры Google увеличили количество процедур мониторинга состояния инфраструктуры для скорейшего выявления любых падений сервисов, так как внутри компании было признано, что 12 минут — это слишком долгий срок реагирования на ошибки.

Автор: Анжел Божинов  •  Иcточник: www.techcrunch.com  •  Опубликована: 29.01.2014
Нашли ошибку в тексте? Сообщите о ней автору: выделите мышкой и нажмите CTRL + ENTER
Теги:   Google.


Оценить статью:
Вверх
Комментарии посетителей
29.01.2014/23:36  AstalaWinda

> 12 минут — это слишком долгий срок реагирования на ошибки
Воу.
Комментарии отключены. С вопросами по статьям обращайтесь в форум.