Petabajt danych w 6 godzin

Petabajt danych w 6 godzin24.11.2008 18:54
Grzegorz Niemirowski

Google ogłosiło, że jest w stanie posortować jeden petabajt danych w ciągu 6 godzin i 2 minutużywając do tego 4000 komputerów. Petabajt odpowiada 12-krotnejilości danych jakie przechowuje Biblioteka Kongresu w ramach akcjiarchiwizacji stron internetowych. Dane sortowane przez Google miały postać 10 bilionów 100-bajtowychrekordów i były przechowywane z wykorzystaniem 48 tysięcy twardychdysków. Ponieważ przy takiej ilości dysków zawsze któryś popsujesię podczas testów, pliki są zapisywane w trzech kopiach na trzechróżnych dyskach przy użyciu Google File System. Przeprowadzono teżtesty z mniejszymi ilościami danych. Pokazały one, że 1 terabajtmożna posortować dzięki technologii Google w 68 sekund używając dotego 1000 komputerów. Tak dobre wyniki są możliwe dzięki MapReduce.Jest to model programowy wraz z implementacją pozwalającyprzetwarzać równolegle duże ilości danych. Za jego pomocą wstyczniu 2008 roku Google przetwarzało 20 PB dziennie.

Oceń jakość naszego artykułuTwoja opinia pozwala nam tworzyć lepsze treści.
Udostępnij:
Wybrane dla Ciebie
Komentarze (44)