r   e   k   l   a   m   a
r   e   k   l   a   m   a

„Literówka” ubiła Internet – Amazon wyjaśnia awarię chmury AWS

Strona główna AktualnościINTERNET

Trzy dni temu mogliśmy na żywo obserwować, jak w ciągu dosłownie minut upadają kolejne serwisy i usługi internetowe, pozornie nie mające ze sobą nic wspólnego – poza jednym istotnym faktem: wykorzystywania do przechowywania danych chmury Simple Storage Service (S3) Amazonu. Awaria była tak poważna, że w pewnym momencie Amazon przyznał, że ze względu na awarię nie jest w stanie użyć swojego narzędzia do monitorowania stanu awarii. A przecież nie tak miały działać chmury – rozproszone, skalowalne i odporne na błędy, nie powinny ulegać awariom, a co dopiero pociągać za sobą sporej części Internetu. Chcecie dowiedzieć się, co się stało? Oto oficjalny raport.

Awaria regionu US-EAST-1, do której doszło w godzinach porannych czasu pacyficznego (PST), nie była wynikiem zawodności sprzętu ni oprogramowania. Zawiodły niezbyt dobrze obmyślane procedury. Administratorzy Amazonu po prostu sami ubili swoją chmurę. Zaczęło się od spowolnienia działania systemu billingowego chmury S3, do sprawdzenia czego skierowano zespół inżynierów.

Jeden z nich, zgodnie z przyjętymi procedurami wydał polecenie, które miało wyłączyć pewną niewielką liczbę serwerów tego podsystemu obsługującego naliczanie płatności. Jak można się domyślić, robił to w konsoli… i wpisał niepoprawnie parametr jednego z poleceń. Efekt? Usunięty został większy podzbiór serwerów niż zamierzano, obejmujący m.in. maszyny wirtualne, na których działały dwa inne podsystemy S3 – indeksowania i lokalizacji.

r   e   k   l   a   m   a

Ten pierwszy gromadzi metadane i informacje o położeniu wszystkich obiektów w chmurze, śledząc wszystkie żądania przeprowadzenia operacji na nich, drugi zaś zarządza przyznawaniem powierzchni dyskowej – i oczywiście wymaga poprawnie działającego podsystemu indeksowania. Gdy więc podsystemom tym wyłączono maszyny, na których działały, zaczęły się sypać, w końcu próbując się zrestartować, ale najwyraźniej nie potrafiły tego w tej nietypowej sytuacji poprawnie zrobić.

Za chwilę więc po tym, jak zawiodła chmura S3, zaczęły upadać kolejne usługi od niej zależne w regionie US-EAST-1. Poleciała więc konsola S3, zaraz potem niemożliwe stało się uruchamianie nowych instancji serwerowych chmury EC2, potem przestały działać chmurowe wolumeny EBS (które swoje dane trzymają jako migawki w chmurze S3), padło nawet to ciekawe bezserwerowe środowisko uruchomieniowe AWS Lambda. Wszystko poleciało jak domek z kart.

Ciekawe w tym wszystkim jest to, że oba omyłkowo wyłączone podsystemy chmury nie były całkowicie restartowane od wielu lat – a w tym czasie chmura S3 którą obsługiwały rozrosła się ogromnie. Dlatego też ich restart zajął niespodziewanie dużo czasu, trzeba było przeprowadzić testy spójności metadanych, które nigdy nie były wcześniej tak testowane. Godzina po godzinie kolejne usługi zyskiwały dość mocy obliczeniowej, by pozwolić wstać usługom od nich zależnym – tak że w godzinach popołudniowych chmura znów działała.

Mądry Amazon po szkodzie

Amazon przyznaje, że sporo się nauczył z tego zdarzenia – do narzędzia wykorzystywanego do wyłączenia serwerów wprowadzono zabezpieczenia, które nie pozwolą już wyłączyć całego podsystemu, pozbawiając go niezbędnej do przetrwania infrastruktury, podobne zmiany będą wprowadzane do innych narzędzi, które przechodzą obecnie audyt. Zastosowano też kilka technik mających przyspieszyć reaktywację usług po awariach – na czele z podziałem usług na małe partycje, tzw. komórki. Według inżynierów Amazonu pozwoli to niezależnie, bez wyłączania przetestować procesy odzyskiwania nawet największych usług i ich podsystemów.

Poprawiono też dostępność usługi informującej o stanie zdrowia usług, która zawiodła przecież w trakcie awarii, tak by wykorzystywała wiele regionów chmury – w razie awarii w jednym z nich będzie działać dalej.

Awaria chmury Amazonu przypomina nam o dwóch kwestiach. Pierwsza, to poziom scentralizowania współczesnego Internetu. Ta sieć w swojej obecnej postaci już nie przetrwa wojny atomowej, jak to miało być w założeniach. Druga, to kwestia dalej postępującej centralizacji. Amazon wychodzi z awarii silniejszy, sprawniejszy, co tylko może zachęcić klientów do korzystania z jego chmury – w końcu kto inny ma takie doświadczenie? Wbić się na ten rynek z czymś zupełnie nowym już nie sposób, nawet najwięksi potentaci IT są zmuszeni do funkcjonowania w cieniu chmur Amazonu, Google i Microsoftu.

© dobreprogramy
r   e   k   l   a   m   a
r   e   k   l   a   m   a

Komentarze

r   e   k   l   a   m   a
r   e   k   l   a   m   a
Czy wiesz, że używamy cookies (ciasteczek)? Dowiedz się więcej o celu ich używania i zmianach ustawień.
Korzystając ze strony i asystenta pobierania wyrażasz zgodę na używanie cookies, zgodnie z aktualnymi ustawieniami przeglądarki.   

Trwa konkurs "Ogól naczelnego", w którym codziennie możecie wygrać najnowsze maszynki systemowe Hydro Connect 5 marki Wilkinson Sword.

Więcej informacji

Gratulacje!

znalezione maszynki:

Twój czas:

Ogól Naczelnego!
Znalazłeś(aś) 10 maszynek Wilkinson Sword
oraz ogoliłaś naszego naczelnego!
Przejdź do rankingu
Podpowiedź: Przyciśnij lewy przycisk myszki i poruszaj nią, aby ogolić brodę.