„Literówka” ubiła Internet – Amazon wyjaśnia awarię chmury AWS

Trzy dni temu mogliśmy na żywo obserwować,jak w ciągu dosłownie minut upadają kolejne serwisy i usługiinternetowe, pozornie nie mające ze sobą nic wspólnego – pozajednym istotnym faktem: wykorzystywania do przechowywania danychchmury Simple Storage Service (S3) Amazonu. Awaria była tak poważna,że w pewnym momencie Amazon przyznał, że ze względu na awarięnie jest w stanie użyć swojego narzędzia do monitorowania stanuawarii. A przecież nie tak miały działać chmury – rozproszone,skalowalne i odporne na błędy, nie powinny ulegać awariom, a codopiero pociągać za sobą sporej części Internetu. Chceciedowiedzieć się, co się stało? Oto oficjalny raport.

Adam Golański

3 marca 2017, 10:13

Awaria regionu US-EAST-1, do której doszło w godzinach porannychczasu pacyficznego (PST), nie była wynikiem zawodności sprzętu nioprogramowania. Zawiodły niezbyt dobrze obmyślane procedury.Administratorzy Amazonu po prostu sami ubili swoją chmurę. Zaczęłosię od spowolnienia działania systemu billingowego chmury S3, dosprawdzenia czego skierowano zespół inżynierów.

Jeden z nich, zgodnie z przyjętymi procedurami wydał polecenie,które miało wyłączyć pewną niewielką liczbę serwerów tegopodsystemu obsługującego naliczanie płatności. Jak można siędomyślić, robił to w konsoli… i wpisał niepoprawnie parametrjednego z poleceń. Efekt? Usunięty został większy podzbiórserwerów niż zamierzano, obejmujący m.in. maszyny wirtualne, naktórych działały dwa inne podsystemy S3 – indeksowania ilokalizacji.

Ten pierwszy gromadzi metadane i informacje o położeniuwszystkich obiektów w chmurze, śledząc wszystkie żądaniaprzeprowadzenia operacji na nich, drugi zaś zarządza przyznawaniempowierzchni dyskowej – i oczywiście wymaga poprawnie działającegopodsystemu indeksowania. Gdy więc podsystemom tym wyłączonomaszyny, na których działały, zaczęły się sypać, w końcupróbując się zrestartować, ale najwyraźniej nie potrafiły tegow tej nietypowej sytuacji poprawnie zrobić.

Za chwilę więc po tym, jak zawiodła chmura S3, zaczęły upadaćkolejne usługi od niej zależne w regionie US-EAST-1. Poleciaławięc konsola S3, zaraz potem niemożliwe stało się uruchamianienowych instancji serwerowych chmury EC2, potem przestały działaćchmurowe wolumeny EBS (które swoje dane trzymają jako migawki wchmurze S3), padło nawet to ciekawe bezserwerowe środowiskouruchomieniowe AWS Lambda. Wszystko poleciało jak domek z kart.

Ciekawe w tym wszystkim jest to, że oba omyłkowo wyłączonepodsystemy chmury nie były całkowicie restartowane od wielu lat –a w tym czasie chmura S3 którą obsługiwały rozrosła sięogromnie. Dlatego też ich restart zajął niespodziewanie dużoczasu, trzeba było przeprowadzić testy spójności metadanych,które nigdy nie były wcześniej tak testowane. Godzina po godziniekolejne usługi zyskiwały dość mocy obliczeniowej, by pozwolićwstać usługom od nich zależnym – tak że w godzinachpopołudniowych chmura znów działała.

Mądry Amazon po szkodzie

Amazon przyznaje, że sporo się nauczył z tego zdarzenia – donarzędzia wykorzystywanego do wyłączenia serwerów wprowadzonozabezpieczenia, które nie pozwolą już wyłączyć całegopodsystemu, pozbawiając go niezbędnej do przetrwaniainfrastruktury, podobne zmiany będą wprowadzane do innych narzędzi,które przechodzą obecnie audyt. Zastosowano też kilka technikmających przyspieszyć reaktywację usług po awariach – na czelez podziałem usług na małe partycje, tzw. komórki. Wedługinżynierów Amazonu pozwoli to niezależnie, bez wyłączaniaprzetestować procesy odzyskiwania nawet największych usług i ichpodsystemów.

Poprawiono też dostępność usługi informującej o staniezdrowia usług, która zawiodła przecież w trakcie awarii, tak bywykorzystywała wiele regionów chmury – w razie awarii w jednym znich będzie działać dalej.

Awaria chmury Amazonu przypomina nam o dwóch kwestiach. Pierwsza,to poziom scentralizowania współczesnego Internetu. Ta sieć wswojej obecnej postaci już nie przetrwa wojny atomowej, jak to miałobyć w założeniach. Druga, to kwestia dalej postępującejcentralizacji. Amazon wychodzi z awarii silniejszy, sprawniejszy, cotylko może zachęcić klientów do korzystania z jego chmury – wkońcu kto inny ma takie doświadczenie? Wbić się na ten rynek zczymś zupełnie nowym już nie sposób, nawet najwięksi potentaciIT są zmuszeni do funkcjonowania w cieniu chmur Amazonu, Google iMicrosoftu.

Adam Golański