Blog (66)
Komentarze (4.8k)
Recenzje (2)

SPOF — kilka słów o „Single point of failure"

@bachusSPOF — kilka słów o „Single point of failure"24.04.2016 13:33

[img=domino]

Ostatnie tygodnie obfitowały w wiele atrakcji w moim życiu zawodowym - głównie z powodu kilku poważniejszych awarii, które dość mocno wymęczyły mnie zarówno fizycznie, jak i psychicznie. To jeden z tych momentów, gdy w organizmie z powodu niedospania, przemęczenia i braku magnezu w rozmowie o tym, że: "jaką to masz dobrą pracę - nie dość, że lubisz co robisz, to jeszcze ci za to płacą" budzą się demony i agresor w stosunku do rozmówcy. No ale nie o tym... W ubiegłym tygodniu niby przewidywalna rzecz - część miasta bez prądu, bo ktoś postanowił ukarść przewody miedziane ze stacji transformatorowej (pożar i straty na ponad €10mln). Tu oczywiście awarie w firmach, mimo UPSów (a to główny firewall autoamgicznie podpięty poza zasilaniem awaryjnym i podobne). Potem wyjątkowo upiorna awaria w oddziale w UK, gdzie w kilka godzin trzeba było przygotować plan awaryjny, wsiąść w samolot o 7-mej rano i mając w bagażu głównym trochę gratów serwerowych coś poskładać naprędce.

Wszystko zaczęło się kilka tygodni wcześniej. Krótki opis sytuacji: firma, która praktycznie w kilka lat z 5 pracowników urosła do blisko 200-osobowego zespołu, całkiem solidne zaplecze sprzętowe. Dość świeże kosztowe środowisko (zarządzalne przełączniki sieciowe, dwie mocne 2-procesorowe serwery z blisko 100GB RAM każdy w klastrze HA, SAN i porządny storage).

Piątek, piąteczek, piątuniek... Końcówka piąteczka, system praktycznie czysty od jakiś bardzo poważnych zgłoszeń. Godzina około 16-stej, wpada alert, że "wyskoczył" z RAID jeden z dysków zasobie dyskowym, gdzie siedzą wszystkie maszyny wirtualne. W sumie spokój, bo RAID redundanty z dodatkowo nieużywanym jednym z dyskiem ("hot-spare"). Dla mniej wtajemniczonych: RAID redundantny oznacza, że może się w macierzy uszkodzić jeden dowolny dysk, to jednak nie spowoduje utraty danych - ot, taka sztuczka z rodzieleniem danych / deduplikacji i sum kontrolnych. Dodatkowy dysk, który czeka nieużywany przejmuje rolę tego uszkodzonego - włącza się do macierzy i w kika godzin odbudowuje swoje dane (czyli w teorii mogą uszkodzić się nawet dwa napędy(. Problem jednak w tym, że nagle poznikały serwery wirtualne a w sieci pozostały widoczne tylko hipernadzorcy*.

Logowanie na hypervisory już mocniej zaniepokoiło - brak komunikacji z zasobami maszyn na NAS po iSCSI. Dziwna sprawa, bo można "pingować" a cały czas jestem podłączony do NASa przez interfejs https... oznacza to wstępnie poważną awarię "klatki" dyskowej, albo kontrolera. Po chwili jednak dyski wracają na swoje miejsce, jednak macierz już delkiatnie mówiąc rozjechana i trzeba przywracać z backupu, co zajmuje sporo czasu.

Dojście do tego co się stało okazało się dość proste, bo klient nie kręcił - zbyt poważni ludzie i nie było próby odwrócenia kota ogonem. Ja jednak byłem dość mocno zaskoczny. Sytuacja dość podobna, jak w przy katastrofie lotu Aerofłot 593 (oczywiście nie z takimi konsekwencjami i tragedią) - czynnik ludzki i właśnie SPOF, o którym jeszcze będzie w tym wpisie.

W firmie impreza z dziećmi pracowników, dziwnym sposobem doszło do zwiedzania pomieszczenia serwerwoni (w sumie dość sporo urządzeń, bo poza starymi i nowymi serwerami, NASami, kilkunastoma switchami, UPSami routerami, centralką telefoniczą i CCTV robią się z tego trzy spore szafy). No i niestety jedno z dzieci, które przez chwilkę nie było pod opieką zafascynowało się migającymi lampkami i malutkim zachęcającymi czerwonymi przyciskami.

Śmieszne? Oj, nie bardzo.

"Pojedynczy punkt awarii"

Najprościej jak można by to opisać - pojedynczy element infrastruktury (serwer, przełącznik sieciowy, okablowanie), serwis / usługa (DNS, DHCP, SQL), których awaria/wyłączenie powoduje spore problemy w działaniu biznesowym a gorszych sytuacjach efekt domina prowadzący do całkowitej katastrofy. Ja jeszcze dodaję do jednego worka (co nie jest zbyt popularne) czynnik ludzki - np. dla mnie takim "SPOFem" było odejście głównego administratora 2be.pl. Jak ja rozumiem zminimalizowanie efektu SPOF od strony czysto technicznej - po wejściu do serwerown można:

[item]wypiąć dowolny jeden kabel zasilający (w teorii większość porządnych urządzeń ma dwa zasilacze, jeden może przejąć prądowo np. cały serwer),[/item][img=StorageReview-Dell-PowerEdge-R720-Power-Supplies]

[item]wypiąć z serwera kabel sieciowy (intefejsy w 'teamingu'),[/item][img=AOC-UG-I4]

[item]może "paść" dowolny switch (czuwa nad tym IS-IS, SPB, OSPF - podwójne okablowanie, krzyżowe połączenia),[/item][img=221831]

[item]odłączyć serwer - drugi przejmie na siebie wszystkie wirtualne serwery "w locie" albo klaster na poziomie aplikacyjnym bez przestoju produkcyjnego.[/item][img=HV]

Może trywialny przykład z serwerem DHCP. Przychodzą pracownicy rano w poniedziałek, włączają komputery, które nie potrafią skorzystać z infrastruktury. Dla kilku maszyn nie jestem problemem podejść i ustawić to "ręcznie", ale w przypadku kilkuset, czy kilku tysięcy zaczyna być ciepło. Drugi przykład (znam to osobiście...), gdzie administrator WSUS nie zastosował się do wytycznych i wypchnął niewinnie wyglądającą łatkę na wszystkie stacje robocze, które po restarcie nie chciały już uruchamiać najważniejszej dla działania firmy aplikacji...

To oczywiście bardzo ogólnikowe podejście do tematu - w całość jeszcze mogą wchodzić UPSy, agregaty prądotwórcze, duplikacja na poziomie całych serwerowni, czy nawet miast no i procedury.

Czy zmniejsza to możliwość awarii? Wręcz przeciwnie - skutecznie zwiększa. Kilkadsiesiąt dysków, kabli, switchy, skomplikowanych konfiguracji. Awaria jednak nie oznacza w tym przypadku przestoju całej infrastruktury. Kolejny problem to oczywiście koszt - dobrze przemyślane środowisko jest często poza zasięgiem finansowym. Nie oznacza to jednak, że nie można chociaż usunąć kilka punktów zapalnych. Najpowszechniejszcze są macierze dyskowe RAID1/RAID5, czy dwa zasilacze w serwerze. Życie ułatwia też wirtualizacja i np. hybryda z chmurą (np. Azure, usługi Amazonu i podobne).

Najsłabsze ogniwo

Jest jeszcze jeden typu SPOF, ten najgorszy - o którym wszyscy wiedzą, ale boją się głośno mówić.... taki "sam wiesz kto" jak w Harrym Pottere. Nie ważne, czy jest to 10-osobowa firma, czy korporacja z wielomilionowym budżetem. On tam siedzi i może uczynić zniszczenia i poważne straty finansowe. Taki koszmarek pojawiający się w snach lokalnego administratora, albo zewnętrznej firmy zarządzajacej IT. Taka stara wyschnięta kocia kupa, która po ruszeniu może zacząć wyjątkowo śmierdzieć - stary, 10Mbit hub z zasilaczem 0.5A, który po wyłączeniu w kilka minut blokuje całą sieć. Wielokrotne próby wymiany na inny model, lub zwykłego pominięcia go nie przynoszą skutku. Musi być KONRETNIE TO URZĄDZENIE. Może to być stara aplikacja napisania przez pana Henia. Program działa nieprzerwanie i bezbłędnie od 25 lat a jedyna możliwość uruchomienia go na komputerach klienckich to sztuczki z wirtualizacją (XP-Mode i inne vApp). Trzy firmy próbowały już go przepisać i wdrożyć, ale bezskutecznie - gdyby nastąpiła awaria bazy danych, to nikt nie potrafi tego naprawić z prostego wzblędu, że pan Heniek ostatnie dwa lata spędził na Powązkach w Warszawie, albo na Osobowicach we Wrocławiu.

Podsumowanie

Wyliminowanie SPOF jest bardzo trudne, głównie ze względów finansowych i organizacyjnych. Z IT i administracją systemami jest znany pewnie wielu z Was problem:

przecież działa od tylu lat dobrze, po co siać panikę?

Jak już jednak dochodzi do awarii, wszystkie oczy skupiają się na osobie odpowiedzialnej za infrastrukture i padają niewygodne pytania ("czy musiało do tego dojść? Jak można było zapobiec?").

Już kiedyś o tym wspominałem: jak to nie Twoja własna firma, należy mieć koniecznie podkładki: maile, dokumenty z wyszczególnieniem co się może wydarzyć i jakie są tego konsekwencje. Że np. zdobyć nowy kontroler RAID do 10-letniego HP czwartej generacji będzie bardzo trudno, kupno nowego serwera zajmie kilka dni a uruchomienie starych aplikacji może być nawet niemożliwe.

* hipernadzorcy (hypervisor)- jak mnie to tłumaczenie śmieszy

Szanowna Użytkowniczko! Szanowny Użytkowniku!
×
Aby dalej móc dostarczać coraz lepsze materiały redakcyjne i udostępniać coraz lepsze usługi, potrzebujemy zgody na dopasowanie treści marketingowych do Twojego zachowania. Twoje dane są u nas bezpieczne, a zgodę możesz wycofać w każdej chwili na podstronie polityka prywatności.

Kliknij "PRZECHODZĘ DO SERWISU" lub na symbol "X" w górnym rogu tej planszy, jeżeli zgadzasz się na przetwarzanie przez Wirtualną Polskę i naszych Zaufanych Partnerów Twoich danych osobowych, zbieranych w ramach korzystania przez Ciebie z usług, portali i serwisów internetowych Wirtualnej Polski (w tym danych zapisywanych w plikach cookies) w celach marketingowych realizowanych na zlecenie naszych Zaufanych Partnerów. Jeśli nie zgadzasz się na przetwarzanie Twoich danych osobowych skorzystaj z ustawień w polityce prywatności. Zgoda jest dobrowolna i możesz ją w dowolnym momencie wycofać zmieniając ustawienia w polityce prywatności (w której znajdziesz odpowiedzi na wszystkie pytania związane z przetwarzaniem Twoich danych osobowych).

Od 25 maja 2018 roku obowiązuje Rozporządzenie Parlamentu Europejskiego i Rady (UE) 2016/679 (określane jako "RODO"). W związku z tym chcielibyśmy poinformować o przetwarzaniu Twoich danych oraz zasadach, na jakich odbywa się to po dniu 25 maja 2018 roku.

Kto będzie administratorem Twoich danych?

Administratorami Twoich danych będzie Wirtualna Polska Media Spółka Akcyjna z siedzibą w Warszawie, oraz pozostałe spółki z grupy Wirtualna Polska, jak również nasi Zaufani Partnerzy, z którymi stale współpracujemy. Szczegółowe informacje dotyczące administratorów znajdują się w polityce prywatności.

O jakich danych mówimy?

Chodzi o dane osobowe, które są zbierane w ramach korzystania przez Ciebie z naszych usług, portali i serwisów internetowych udostępnianych przez Wirtualną Polskę, w tym zapisywanych w plikach cookies, które są instalowane na naszych stronach przez Wirtualną Polskę oraz naszych Zaufanych Partnerów.

Dlaczego chcemy przetwarzać Twoje dane?

Przetwarzamy je dostarczać coraz lepsze materiały redakcyjne, dopasować ich tematykę do Twoich zainteresowań, tworzyć portale i serwisy internetowe, z których będziesz korzystać z przyjemnością, zapewniać większe bezpieczeństwo usług, udoskonalać nasze usługi i maksymalnie dopasować je do Twoich zainteresowań, pokazywać reklamy dopasowane do Twoich potrzeb. Szczegółowe informacje dotyczące celów przetwarzania Twoich danych znajdują się w polityce prywatności.

Komu możemy przekazać dane?

Twoje dane możemy przekazywać podmiotom przetwarzającym je na nasze zlecenie oraz podmiotom uprawnionym do uzyskania danych na podstawie obowiązującego prawa – oczywiście tylko, gdy wystąpią z żądaniem w oparciu o stosowną podstawę prawną.

Jakie masz prawa w stosunku do Twoich danych?

Masz prawo żądania dostępu, sprostowania, usunięcia lub ograniczenia przetwarzania danych. Możesz wycofać zgodę na przetwarzanie, zgłosić sprzeciw oraz skorzystać z innych praw wymienionych szczegółowo w polityce prywatności.

Jakie są podstawy prawne przetwarzania Twoich danych?

Podstawą prawną przetwarzania Twoich danych w celu świadczenia usług jest niezbędność do wykonania umów o ich świadczenie (tymi umowami są zazwyczaj regulaminy). Podstawą prawną przetwarzania danych w celu pomiarów statystycznych i marketingu własnego administratorów jest tzw. uzasadniony interes administratora. Przetwarzanie Twoich danych w celach marketingowych realizowanych przez Wirtualną Polskę na zlecenie Zaufanych Partnerów i bezpośrednio przez Zaufanych Partnerów będzie odbywać się na podstawie Twojej dobrowolnej zgody.