Strona używa cookies (ciasteczek). Dowiedz się więcej o celu ich używania i zmianach ustawień. Korzystając ze strony wyrażasz zgodę na używanie cookies, zgodnie z aktualnymi ustawieniami przeglądarki.    X

RAIDers of the lost drive cz.2

Wstęp

Nie tak dawno wspomniałem o podstawach konfiguracji RAID w serwerach HP. Jak już wtedy podałem, RAID nie jest backupem i nawet przy zachowaniu redundacji dysków fizycznych, jest możliwa utrata danych: szczególnie, jak nie wiemy o "problemie" z jednym napędów.
W dzisiejszym wpisie poruszę kwestię prostego monitoringu zasobów sprzętowych za pomocą "trapów SNMP" wysyłanych mailem i rozsądny sposób zgłaszania awarii na przykładnie sprzętu HP.

Prosty monitoring

W małym jak i w rozbudowanym środowisku serwerowo-desktopowym dosć istotnym aspektem jest monitoring uwzględniający zasoby sprzętowe. W większości sytuacji kończy się to na czasochłonnym dopieszczaniem oprogramowania, MIBów i obsługi "trapów" SNMP: w dużym uproszczoszczeniu urządzenie z chwilą awarii 'wypluwa' na duży ekan NOC najważniejsze informacje o zdarzeniu:
[jak ktoś jest zainteresowany, mogę kiedyś poświęcić kilka wpisów o budowaniu takiego środowiska: od konfiguracji Nagiosa / Tivoli Monitoring po implementację obsługi zgodnych z ITIL]
Co jednak zrobić, jak nie mamy odpowiedniej infrastruktury, czasu, czy kompetencji do wprowadzenia monitoringu z prawdziwego zdarzenia a serwery są np. 200km od naszego biura i nie ma możliwości obserwowania kolorów diód na przednim panelu serwera? Można wysłać 'alert' mailem.

Konfiguracja

Serwer na którym demonstruję konfigurację to HP Proliant DL380 z serii G7:
Zainstalowany system operacyjny to Windows 2008R2, maszyna pełni rolę PDC, czyli dość istotne zadania w środowisku Active Directory. Zakładam, że administrator zainstalował wszystkie zalecane programy z 'HP Managment Apps': przejdźmy więc do "HP Management Agents --> Event Notifier Config":
Tam przywita nas dość prosty w obsłudze "łizard'. Już na wstępie widać, że trzeba sobie przygotować adres serwera SMTP, który "przepuści" nasze maile: rolę może spełnić "localhost" (gdy monitorowany box pełni rolę serwera pocztowego), ew. można dodać IP do 'whitelist' na serwerze SMTP, lub poszukać innego rozwiązania z przepchnięciem maila przez otwarty serwer SMTP:
Warto na zaglądnąć w opcję "Events": domyślnie będą przekazywane na maila wszelkie możliwe zdarzenia generowane przez SNMP poczynając na podłączeniu/odłączeniu urządzenia do gniazda USB a kończąc na przerwach w zasilaniu na jednym z zasilaczy, czy uszkodzeniu dysku:

Nadal jednak nie mamy pewności, czy nasza konfiguracja spełni swoje zadanie. Najprościej by było teraz popsuć jeden z dysków twardych, lub odłączyć jeden z kabli zasilających, ale nie tędy droga w środowisku produkcyjnym: wygenerujmy więc testowe zdarzenie za pomocą "HP System Management Homespace".

W środowisku domenowym logujemy się za uprawnień konta administratora: NAZWADOMENY\administrator
W panelu zarządzania należy przejść do zakładki "Settings" i w opcjach "SNMP Webagent" kliknąć w "SNMP & Agent Settings":
Po wyświetleniu kolejnego okna możemy już wygenerować testowy "TRAP":
W sytuacji, gdy skonfigurowaliśmy wszystko poprawnie, powinniśmy po chwili otrzymać maila o przykładowej treści:

W tym miejscu należy pamiętać, że w przypadku niektórych awarii mail może do nas nie dotrzeć: uszkodzenie płyty głównej, karty sieciowej, głównego switcha, czy najzwyklejsza przerwa w dostawie prądu przy złej konfiguracji UPS.

Awaria

Jak już wspomniałem, serwery też się psują a w szczególności dyski twarde. Zakładamy, że wiemy już o awarii z np. otrzymanego maila, lub któryś z pracowników zauważył pomarańczową diodę na panelu (standardowo są zielone...):
Oznacza to, że należy wymienić dysk w serwerze. Najlepsze rozwiązanie to sytuacja, gdy wszystkie nasze maszyny są na gwarancji: kupując "zabawki" należy dodać minimum 4 lata wsparcia HP i co roku przedłużać o 12 miesięcy. Jest to moim zdaniem niezbędne w środowisku produkcyjnym z kilu powodów:
  • nie musimy się martwić o ogromne koszta nowych części (jedna sztuka HP 300GB 6G SAS 15K kosztuje ok. €430 a 600GB 6G SAS 10K w granicach €1000!),
  • podstawowa gwarancja HP to NBD (Następny Dzień Roboczy): czyli zgłaszając problem przed 17.00 na następny dzień będą dostarczone części zamienne i jeżeli to konieczne wykwalifikowany inżynier); możemy sobie zażyczyć SBD, albo nawet 2h na naprawę serwera, ale księgowy nas wyśmieje, gdy zobaczy koszta takiego wsparcia,
  • przy niektórych awariach nie mamy pewności, co się uszkodziło: po wymiane zasilacza, płyty głównej i procesora nagle się okaże, że jest uszkodzona elektronika włącznika obudowy (miałem taki przypadek): kosztami części jest obciążony producent,
  • nie musimy się znać na wszystkim: Tobie może zająć nawet kilka godzin wymiana płyty głównej, osobie robiącej to dzień w dzień (HP) pół godziny.

Przed zgłoszeniem serwisowym warto się przygotować. Najważniejszy jest oczywiście numer seryjny urządzenia umieszczony na obudowie serwera. W przypadku braku fizycznego dostępu do sprzętu w Windowsie można posłużyć się "Windows Management Instrumentation":

wmic csproduct get vendor,name,identifyingnumber
Polecenie powinno wygenerować informację o SN i modelu sprzętu:
W systemach z rodziny *nix można spróbować wyciągnąć za pomocą polecenia:dmidecode -t system | grep Serial

Teraz mamy dwie opcje:

  • zadzwonić do supportu i zgłosić usterkę,
  • "wrzucić case" przez portal HP.
Pierwszej drogi szczerze nie trawię z kilku powodów:

  • szczerze nie lubię czekać 15 minut na "wolny slot" a wcześniej gadać z automatami (nie tak dawno HP wprowadziło "pierwszą linię" supportu jako automat z rozpoznawaniem mowy,
  • podczas tłumaczenia problemu należy podać bardzo dużo informacji, łącznie z numerem seryjnym dysku, adresami, mailami, telefonami itd.,
  • trzeba przejść przez cały proces jak próba "naprawienia" problemu (np. odłączenie/ponowne podłączenie dysku),
  • w przypadku korzystania wsparcia anglojęzycznego najczęściej odbierze osoba, mówiąc delikatnie nie będąca "native speaker", co może doprowadzić do białej gorączki zarówno Ciebie jak i support,

Zróbmy to przez portal HP, jednak przygotujmy sobie najpierw odpowiednie informacje.
Na serwerze należy uruchomić "HP Array Configuration Utilty" - w każdej chwili można pobrać ze strony HP, instalacja nie wymaga restartu serwera. Dokładnie te same informacje można uzyskać za pomocą 'LiveCD' opisywanego w pierwszej części wpisu.

Jak można stwierdzić, SNMP trap nie mylił się, jeden z dysków jest uszkodzony: tragedii jeszcze nie ma, ale do nieszczęścia coraz bliżej:

Na którymś etapie zgłoszenia serwisowego HP na 100% zapyta nas o "raport ACU" - przejdźmy więc do zakładki "Diagnostics" i wygenerujmy paczkę .zip za pomocą "Generate Diagnostic Report":

W paczce znajdują się informacje (XML), zawierające szczegółowe informacje o konfiguracji, numerach seryjnych, firmware itd. Plik ten należy pobrać, będzie potrzebny później.

Teraz należy założyć konto na stronie HP. Po zalogowaniu się (należy się uzbroić w cierpliwość, strona HP ślimaczy się, jak backup nad ranem) interesuje nas zakładka: "Submit of manage support cases", znajdująca się w dolnej części lewego menu:

W pole "Contract or warranty ID" należy wpisać uzyskany wcześniej SN serwera:
W przypadku, gdy nasze konto nie jest dziewicze, zostaną też wyświetlone inne zgłoszenia:
Starajmy się opsiać problem bardzo dokładnie: w przypadku uszkodzonego dysku twardego są to dwa zdania:
Czasem warto się chociaż trochę rozpisać:

Należy dwa razy sprawdzić wypełnione pola:

  • opis usterki,
  • adres docelowy zarówno dla części zamiennych (są dostarczane spedytorem krótko przed przyjazdem inżyniera), jak i adres, gdzie znajduje się sam serwer,
  • numer telefonu (w krótkim czasie support HP do nas oddzwoni),
  • nasz adres mailowy.

Nie należy jeszcze zamykać potwierdzenia:

Teraz w miarę szybko należy kliknąć na "Click link to send attachment" i załączyć wygenerowany wcześniej ACU: dzięki temu zanim oddelegowany pracownik pomocy technicznej do nas oddzwoni zapozna się z tym dokumentem (jeżeli tego nie wyślemy i tak się zapyta o te dane):
Po chwili powinniśmy otrzymać zwrotkę, że mail przeszedł i trafił do odpowiednego 'case':.
Teraz już możemy oczekiwać telefonu od serwisu: przy wrzuceniu zadania rano (~9AM GMT) telefon odezwie się po kilku minutach.
Zostaną zadane nam podstawowe pytania i należy powtórzyć to, co zostało podane w zgłoszeniu, oraz czego oczekuje się od serwisu: potwierdzić dane do wysyłki części zamiennych, oraz czy jest niezbędna wizyta inżyniera (w większości sytuacji nawet mało rozgarnięty "informatyk" wymieni dysk SAS w serwerze, czy uszkodzony zasilacz).
Plusem serwisu "NBD z wizytą inżyniera" jest dodatkowo fakt... redukcji własnych kosztów: w przypadku tego samego miasta nie mam sumienia targać serwisantów do 2-minutowej roboty. Są oni jednak rozsiani po całym kraju. Dla mnie by to był dzień z głowy i spore koszta(ponad 5h w samochodzie, bak paliwa i kilka razy opłaty autostradowe).

Podsumowanie

Jedno z przysłów informatycznych głosi, że "z próżnego i recover nie odzyska" RAID z dyskami nadmiarowymi nadal nie zapewnia 100% bezpieczeństwa i należy dbać o kopie bezpieczeństwa.
 

windows porady serwery

Komentarze

0 nowych
dzikiwiepsz   11 #1 28.05.2013 17:00

Oj tym ostatnim obrazkiem z jezusem pewnie obraziłeś katolików, kościół pewnie szykuje już przeciwko tobie krucjatę :D
(żarcik)
a po za tym nawet fajny artykuł długi i z dużą ilością obrazków.

4lpha   9 #2 28.05.2013 22:05

@dzikiwiepsz
Nie widzę w tym obrazku nic obraźliwego.

bachus   19 #3 28.05.2013 22:07

@4lpha: to był tylko żart ;-) Spróbuj wrzucić na bloga zdjęcie tego na M to zrozumiesz co miał na myśli @dzikiwiepsz

itsave   2 #4 29.05.2013 11:45

A mi się najbardziej podoba stwierdzenie: "z próżnego i recover nie odzyska" :)
Powinni to pisać na końcu ofert handlowych kierowanych do IT.

Czasem firmy kupują krocie serwerów, VMware itp itd, a gdy pada pytanie co z backupem?
- No o tym to pomyślimy pewnie w przyszłym roku, bo na to teraz nie będzie środków. :)

bachus   19 #5 29.05.2013 14:32

@itsave: jako konsultant mogę stwierdzić, że mimo wszystko firmy myślą o backupie i 'nawet go mają' - ale nie wiedzą, jak z niego skorzystać. Jak podpytasz 'adminów' Windowsa o to 'a jak odbudować serwer z ntbackup' to zrobią oczy ;-)
Ja zawsze jak siadam do rozmowy o tym zadaję pytanie:
- ile będzie Cię kosztował 3dni - kilku tygodni downtime? [W wielu sytuacjach może to oznaczać... upadek biznesu].
- no ale mam backup
- no ale czy wiadomo, co z nim zrobić? Czy wiadomo, jak odbudować serwery? Co będzie, jak użyje się innego hardware? (potęga wirtualizacji wchodzi...); czy wiemy, jak odbudować bazy, AD, CMSy różne, punkty konaktu do firm od oprogramowania?
'Disaster recovery plan' to najczarniejsza dziura w dzisiejszym biznesie. Podam tylko jako przykład, że spalił się budynek mojego klienta. Tydzień wcześniej robiłem u niego dość skomplikowane operacje na serwerach i dla swoich potrzeb (bez pozwolenia...) zrobiłem sobie 'na wypadek' image systemów na mój dysk USB (oczywiście szyfrowany...). Było to jedyne źródło poprawnego backupu.

4lpha   9 #6 29.05.2013 21:25

@bachus
Zgadzam się. Wirtualizacja ma niewątpliwe zalety.

Na moje szczęście Linuksy łatwiej przywrócić na innym sprzęcie.

itsave   2 #7 29.05.2013 23:01

@bachus

Tak - tutaj się zgadzam z Tobą całkowicie. W sumie backup czasem działa w tle i jest wykonywany, pytanie czy poprawnie i czy da się go w ogóle przywrócić na inny hardware. Wirtualizacja tutaj niewątpliwie wygrywa i to bez dwóch zdań, tym bardziej jeśli nie mamy w innej lokalizacji centrum zapasowego Disaster Recovery.

Oby wszystkie osoby IT miały takie podejście jak Ty i robili na wszelki wypadek wszystkie potrzebne kopie...dobrze, że są tacy ludzie jak Ty.