„Literówka” ubiła Internet – Amazon wyjaśnia awarię chmury AWS

„Literówka” ubiła Internet – Amazon wyjaśnia awarię chmury AWS03.03.2017 10:13

Trzy dni temu mogliśmy na żywo obserwować,jak w ciągu dosłownie minut upadają kolejne serwisy i usługiinternetowe, pozornie nie mające ze sobą nic wspólnego – pozajednym istotnym faktem: wykorzystywania do przechowywania danychchmury Simple Storage Service (S3) Amazonu. Awaria była tak poważna,że w pewnym momencie Amazon przyznał, że ze względu na awarięnie jest w stanie użyć swojego narzędzia do monitorowania stanuawarii. A przecież nie tak miały działać chmury – rozproszone,skalowalne i odporne na błędy, nie powinny ulegać awariom, a codopiero pociągać za sobą sporej części Internetu. Chceciedowiedzieć się, co się stało? Oto oficjalny raport.

Awaria regionu US-EAST-1, do której doszło w godzinach porannychczasu pacyficznego (PST), nie była wynikiem zawodności sprzętu nioprogramowania. Zawiodły niezbyt dobrze obmyślane procedury.Administratorzy Amazonu po prostu sami ubili swoją chmurę. Zaczęłosię od spowolnienia działania systemu billingowego chmury S3, dosprawdzenia czego skierowano zespół inżynierów.

Jeden z nich, zgodnie z przyjętymi procedurami wydał polecenie,które miało wyłączyć pewną niewielką liczbę serwerów tegopodsystemu obsługującego naliczanie płatności. Jak można siędomyślić, robił to w konsoli… i wpisał niepoprawnie parametrjednego z poleceń. Efekt? Usunięty został większy podzbiórserwerów niż zamierzano, obejmujący m.in. maszyny wirtualne, naktórych działały dwa inne podsystemy S3 – indeksowania ilokalizacji.

Ten pierwszy gromadzi metadane i informacje o położeniuwszystkich obiektów w chmurze, śledząc wszystkie żądaniaprzeprowadzenia operacji na nich, drugi zaś zarządza przyznawaniempowierzchni dyskowej – i oczywiście wymaga poprawnie działającegopodsystemu indeksowania. Gdy więc podsystemom tym wyłączonomaszyny, na których działały, zaczęły się sypać, w końcupróbując się zrestartować, ale najwyraźniej nie potrafiły tegow tej nietypowej sytuacji poprawnie zrobić.

Za chwilę więc po tym, jak zawiodła chmura S3, zaczęły upadaćkolejne usługi od niej zależne w regionie US-EAST-1. Poleciaławięc konsola S3, zaraz potem niemożliwe stało się uruchamianienowych instancji serwerowych chmury EC2, potem przestały działaćchmurowe wolumeny EBS (które swoje dane trzymają jako migawki wchmurze S3), padło nawet to ciekawe bezserwerowe środowiskouruchomieniowe AWS Lambda. Wszystko poleciało jak domek z kart.

Ciekawe w tym wszystkim jest to, że oba omyłkowo wyłączonepodsystemy chmury nie były całkowicie restartowane od wielu lat –a w tym czasie chmura S3 którą obsługiwały rozrosła sięogromnie. Dlatego też ich restart zajął niespodziewanie dużoczasu, trzeba było przeprowadzić testy spójności metadanych,które nigdy nie były wcześniej tak testowane. Godzina po godziniekolejne usługi zyskiwały dość mocy obliczeniowej, by pozwolićwstać usługom od nich zależnym – tak że w godzinachpopołudniowych chmura znów działała.

Mądry Amazon po szkodzie

Amazon przyznaje, że sporo się nauczył z tego zdarzenia – donarzędzia wykorzystywanego do wyłączenia serwerów wprowadzonozabezpieczenia, które nie pozwolą już wyłączyć całegopodsystemu, pozbawiając go niezbędnej do przetrwaniainfrastruktury, podobne zmiany będą wprowadzane do innych narzędzi,które przechodzą obecnie audyt. Zastosowano też kilka technikmających przyspieszyć reaktywację usług po awariach – na czelez podziałem usług na małe partycje, tzw. komórki. Wedługinżynierów Amazonu pozwoli to niezależnie, bez wyłączaniaprzetestować procesy odzyskiwania nawet największych usług i ichpodsystemów.

Poprawiono też dostępność usługi informującej o staniezdrowia usług, która zawiodła przecież w trakcie awarii, tak bywykorzystywała wiele regionów chmury – w razie awarii w jednym znich będzie działać dalej.

Awaria chmury Amazonu przypomina nam o dwóch kwestiach. Pierwsza,to poziom scentralizowania współczesnego Internetu. Ta sieć wswojej obecnej postaci już nie przetrwa wojny atomowej, jak to miałobyć w założeniach. Druga, to kwestia dalej postępującejcentralizacji. Amazon wychodzi z awarii silniejszy, sprawniejszy, cotylko może zachęcić klientów do korzystania z jego chmury – wkońcu kto inny ma takie doświadczenie? Wbić się na ten rynek zczymś zupełnie nowym już nie sposób, nawet najwięksi potentaciIT są zmuszeni do funkcjonowania w cieniu chmur Amazonu, Google iMicrosoftu.

Źródło artykułu:www.dobreprogramy.pl
Szanowna Użytkowniczko! Szanowny Użytkowniku!
×
Aby dalej móc dostarczać coraz lepsze materiały redakcyjne i udostępniać coraz lepsze usługi, potrzebujemy zgody na dopasowanie treści marketingowych do Twojego zachowania. Twoje dane są u nas bezpieczne, a zgodę możesz wycofać w każdej chwili na podstronie polityka prywatności.

Kliknij "PRZECHODZĘ DO SERWISU" lub na symbol "X" w górnym rogu tej planszy, jeżeli zgadzasz się na przetwarzanie przez Wirtualną Polskę i naszych Zaufanych Partnerów Twoich danych osobowych, zbieranych w ramach korzystania przez Ciebie z usług, portali i serwisów internetowych Wirtualnej Polski (w tym danych zapisywanych w plikach cookies) w celach marketingowych realizowanych na zlecenie naszych Zaufanych Partnerów. Jeśli nie zgadzasz się na przetwarzanie Twoich danych osobowych skorzystaj z ustawień w polityce prywatności. Zgoda jest dobrowolna i możesz ją w dowolnym momencie wycofać zmieniając ustawienia w polityce prywatności (w której znajdziesz odpowiedzi na wszystkie pytania związane z przetwarzaniem Twoich danych osobowych).

Od 25 maja 2018 roku obowiązuje Rozporządzenie Parlamentu Europejskiego i Rady (UE) 2016/679 (określane jako "RODO"). W związku z tym chcielibyśmy poinformować o przetwarzaniu Twoich danych oraz zasadach, na jakich odbywa się to po dniu 25 maja 2018 roku.

Kto będzie administratorem Twoich danych?

Administratorami Twoich danych będzie Wirtualna Polska Media Spółka Akcyjna z siedzibą w Warszawie, oraz pozostałe spółki z grupy Wirtualna Polska, jak również nasi Zaufani Partnerzy, z którymi stale współpracujemy. Szczegółowe informacje dotyczące administratorów znajdują się w polityce prywatności.

O jakich danych mówimy?

Chodzi o dane osobowe, które są zbierane w ramach korzystania przez Ciebie z naszych usług, portali i serwisów internetowych udostępnianych przez Wirtualną Polskę, w tym zapisywanych w plikach cookies, które są instalowane na naszych stronach przez Wirtualną Polskę oraz naszych Zaufanych Partnerów.

Dlaczego chcemy przetwarzać Twoje dane?

Przetwarzamy je dostarczać coraz lepsze materiały redakcyjne, dopasować ich tematykę do Twoich zainteresowań, tworzyć portale i serwisy internetowe, z których będziesz korzystać z przyjemnością, zapewniać większe bezpieczeństwo usług, udoskonalać nasze usługi i maksymalnie dopasować je do Twoich zainteresowań, pokazywać reklamy dopasowane do Twoich potrzeb. Szczegółowe informacje dotyczące celów przetwarzania Twoich danych znajdują się w polityce prywatności.

Komu możemy przekazać dane?

Twoje dane możemy przekazywać podmiotom przetwarzającym je na nasze zlecenie oraz podmiotom uprawnionym do uzyskania danych na podstawie obowiązującego prawa – oczywiście tylko, gdy wystąpią z żądaniem w oparciu o stosowną podstawę prawną.

Jakie masz prawa w stosunku do Twoich danych?

Masz prawo żądania dostępu, sprostowania, usunięcia lub ograniczenia przetwarzania danych. Możesz wycofać zgodę na przetwarzanie, zgłosić sprzeciw oraz skorzystać z innych praw wymienionych szczegółowo w polityce prywatności.

Jakie są podstawy prawne przetwarzania Twoich danych?

Podstawą prawną przetwarzania Twoich danych w celu świadczenia usług jest niezbędność do wykonania umów o ich świadczenie (tymi umowami są zazwyczaj regulaminy). Podstawą prawną przetwarzania danych w celu pomiarów statystycznych i marketingu własnego administratorów jest tzw. uzasadniony interes administratora. Przetwarzanie Twoich danych w celach marketingowych realizowanych przez Wirtualną Polskę na zlecenie Zaufanych Partnerów i bezpośrednio przez Zaufanych Partnerów będzie odbywać się na podstawie Twojej dobrowolnej zgody.