Petabajt danych w 6 godzin

Strona główna Aktualności

O autorze

Google ogłosiło, że jest w stanie posortować jeden petabajt danych w ciągu 6 godzin i 2 minut używając do tego 4000 komputerów. Petabajt odpowiada 12-krotnej ilości danych jakie przechowuje Biblioteka Kongresu w ramach akcji archiwizacji stron internetowych.

Dane sortowane przez Google miały postać 10 bilionów 100-bajtowych rekordów i były przechowywane z wykorzystaniem 48 tysięcy twardych dysków. Ponieważ przy takiej ilości dysków zawsze któryś popsuje się podczas testów, pliki są zapisywane w trzech kopiach na trzech różnych dyskach przy użyciu Google File System. Przeprowadzono też testy z mniejszymi ilościami danych. Pokazały one, że 1 terabajt można posortować dzięki technologii Google w 68 sekund używając do tego 1000 komputerów.

Tak dobre wyniki są możliwe dzięki MapReduce. Jest to model programowy wraz z implementacją pozwalający przetwarzać równolegle duże ilości danych. Za jego pomocą w styczniu 2008 roku Google przetwarzało 20 PB dziennie.

© dobreprogramy

Komentarze