Сообщение 01 июн 2011, 13:17

Blogger Отчет об инциденте

Среда, 11 мая, 10:00 вечера (примерно 8 утра по Московскому времени), проходит плановое техническое обслуживание Blogger по повышению надежности обслуживания. К сожалению, в этот период были допущены ошибки, которые привели к противоположному эффекту. В этом докладе описывается, что мы делали, что пошло не так, как мы восстановили работу, и что мы делаем, чтобы предотвратить подобные проблемы в будущем.

Мы приносим извинения за последствия этого инцидента всем авторам Blogger и читателям.

Что мы делали.

Blogger хранит копии блогов в нескольких разных местах. Если вдруг одна копия становится недоступной, например, из-за разрыва кабеля или потери мощности, блоги продолжают оставаться доступными. В процессе технического обслуживания мы пытались добавить ещё несколько мест для резервного сохранения копий блогов (это позволяет сделать наш сервис более надежным) и увеличить мощности (что позволит создавать ещё больше новых блогов людям).

Что пошло не так.

Дальше как-то запутанно получается, но суть примерно такая. Когда после обновлений стали проверять новые копии блогов, в ходе проверки обнаружилось, что Blogger с некоторыми копиями работает некорректно, и пользовательские данные становятся недоступными. Это проявилось в ряде блогов, когда некоторые из пользователей не могли получить доступ к панели управления.

Решение проблемы.

После нескольких часов изучения различных вариантов решения данной проблемы мы решили восстановить данные Blogger из нашей системы резервного копирования. Для этого нам сначала необходимо было восстановить данные из резервных копий в нашей главной инфраструктуре, а затем уже восстановить все сообщения, страницы и правки, которые были сделаны после основной резервной копии.

Хоть мы и восстановили службу из резервной копии, Blogger остался в режиме «только для чтения» чуть более 10 часов, после чего большинство блогов вернулось к нормальной жизни. Однако, после восстановления резервной копии возникли некоторые несоответствия, что ещё остается небольшой процент пострадавших блогов. Кроме того, в процессе, используемом для переноса сообщений, произошли некоторые побочные эффекты, которые мы не предусмотрели.

Тут скорее всего имеется ввиду то, что с момента, когда была сделана резервная копия базы данных до момента ее восстановления пользователи публиковали новые сообщения, которые не попали в основную резервную копию. Именно поэтому у тех, кто публиковал в этот период новые сообщения они пропали. Про эти пропавшие сообщения речь дальше.

Как только мы восстановили все блоги, мы направили свои действия в сторону устранения несоответствий, и постепенно восстанавливая сообщения, страницы и комментарии. Для этого требуется детальная работа, и мы сосредоточились на том, чтобы полностью убедиться, что мы ничего не упустили из виду.

Извлеченные уроки и профилактические действия.

Мы многому научились в этот короткий период времени. Тому, как не допускать ошибок в нашем обслуживании и восстановлении. Мы определили несколько областей, что необходимо исправить и улучшить, в том числе и сами инструменты для устранения неполадок в нашем хранилище данных, защитные функции в нашем программном обеспечении для защиты от ошибок, улучшить резервное копирование и восстановление данных, а также некоторые процедурные изменения для поддержания, что предотвратит подобную ситуацию в будущем. Мы также обдумали, каким образом можем улучшить наше общение с нашими пользователями, если что-то подобное повторится, общение, которое будет включать в себя более последовательное обновления новостей на форуме пользователей (подумали бы, как с русскоязычными пользователями общаться).

В течении этого времени мы получали сообщения с поддержкой от некоторых пользователей, которым теперь очень благодарны. Blogger пользователи потратили огромное количество времени на создание удивительно творческих, важных и личных блогов. Эти потраченные вами часы ложатся тяжелым бременем на нас, ведь проблемы с Blogger вызвали ваши тревоги и разочарования. Мы искренне извиняемся за это.

Мы полны решимости быстро фиксировать проблемы, а извлеченные уроки вселяют надежду на то, что такого рода проблема больше не повторится.

Серый курсив - примечания переводчика.
Оригинал статьи на английском http://status.blogger.com/2011/05/blogger-incident-report-by-eddie.html