Интернет-компания Google 10 декабря 2012 года испытала одну из крупнейших неполадок в своей облачной инфраструктуре, затронувшей до 40% пользователей сервисов компании. В течение 18 минут по всему миру возникли проблемы с доступом к Gmail, Google Play, Google Drive, Google Chat и других сервисов, включая многочисленные падения браузера Google Chrome.
Увеличить рисунок
Причиной падения стало некорректно сконфигурированным обновлением программного обеспечения серверов и центров обработки данных. Установленное обновление стало неправильно интерпретировать служебные сообщения некоторых ЦОДов, сочтя их неработоспособными. Компоненты перераспределения нагрузки между ЦОДами такую ошибку не учитывали и продолжали отправлять трафик пользователей через принудительно заблокированные узлы, что привело к получению 502 ошибки у многих пользователей. Тем не менее, сервисы поиска, карт, таргетированной рекламы AdWords и Google Analytics обновление не получили, поэтому продолжили свою работу из-за иной конфигурации.
Пользователи браузера Google Chrome также испытали проблемы в работе. Дело в том, что механизм синхронизации информации пользователей Chrome Sync был связан с серверами GMail, поэтому при попытке браузера соединиться с учётной записью пользователя в Сети, механизм синхронизации получал необрабатывамое исключение, которое приводило к мгновенному падению браузера.
Внутреннее расследование компании выявило, что ошибка была вызвана человеским фактором при выведении обновления в общее действие для всех пользователей. В течение 18 минут специалисты Google провели откат проблемного патча, и сервисы корпорации вернулись к работе. Работники компании отметили, что ошибка не привела к потере сохранённых данных, а также принесли извинения за причинённые неудобства своим клиентам.