r   e   k   l   a   m   a
r   e   k   l   a   m   a

180 TFLOPS na jednej karcie napędzi google'ową chmurę AI

Strona główna AktualnościSPRZĘT

Pierwsza generacja czipów TPU (Tensor Processing Unit) przyniosła przełom w wykorzystaniu sztucznej inteligencji w usługach Google’a. Układ zaprojektowany od podstaw z myślą o wykorzystaniu w maszynowym uczeniu pozwolił uruchomić niskim kosztem rozpoznawanie mowy i obrazu w chmurze – usługi, których realizacja na zwykłych GPU wymagałaby podwojenia liczby centrów danych na świecie. A co można osiągnąć z zaprezentowanym podczas tegorocznej konferencji I/O czipem TPU drugiej generacji?

Architektura pierwszej generacji TPU tak bardzo odbiegała od CPU czy GPU, że trudno je było porównywać ze sobą pod względem mocy obliczeniowej. Można na pewno powiedzieć, że w obciążeniach roboczych związanych z maszynowym uczeniem były one o rzędy wielkości efektywniejsze od niespecjalizowanych układów. W porównaniu do akceleratora graficznego NVIDIA Tesla K80, miały być one szybsze nawet 25-29 razy.

Co szczególnie istotne, wygląda na to, że Google nie będzie już w ogóle potrzebowało GPU do swoich sztucznych inteligencji. TPU pierwszej generacji były wykorzystywane jedynie w drugim etapie maszynowego uczenia, wnioskowania na bazie posiadanych modeli. Wstępne szkolenie i budowanie modeli wciąż odbywało się na GPU. To stare TPU w ogóle nie wykorzystywało obliczeń zmiennoprzecinkowych (jak to jest w wypadku GPU, gdzie stosuje się tryb połowicznej precyzji FP16), korzystając z 8-bitowych przybliżeń stałoprzecinkowych.

r   e   k   l   a   m   a

Teraz te same czipy mogą być wykorzystywane zarówno w szkoleniu jak i wnioskowaniu, a Google najwyraźniej znalazło sposób na wprowadzenie do TPU operacji zmiennoprzecinkowych. Jeden moduł TPU drugiej generacji w tych zastosowaniach ma oferować moc rzędu 180 TFLOPS. Taki moduł to cztery pracujące równolegle czipy, z których każdy osiąga 45 TFLOPS – przy zużyciu energii nie przekraczającym 60 W na czip. Weźmy dla porównania akcelerator graficzny NVIDIA Tesla P100: szczytowa wydajność w trybie obliczeń połowicznej precyzji (FP16), to ponad 21 TFLOPS (wynik nieosiągalny dla konsumenckich kart, których wydajność jest tu sztucznie ograniczana).

Skalowalność google’owej architektury teoretycznie nie ma ograniczeń. Szybkie pasmo interconnect pozwala zestawić 64 moduły TPU w coś, co nazywają „podem” – taki zestaw oferuje moc obliczeniową 11,5 PFLOPS. I co najważniejsze, dostęp do tej „inteligentnej” mocy obliczeniowej nie będzie ograniczony tylko do usług Google’a. Już w tym roku użytkownicy chmury Google Cloud Platform będą mogli skorzystać z akcelerowanych przez TPU usług maszynowego uczenia w swoich aplikacjach.

Ceny podobno mają być bardzo konkurencyjne, a sugerowane zastosowania obejmą analizę zawartości wideo w czasie rzeczywistym, tłumaczenia i analizę tekstu i rozpoznawanie mowy.

Konkurencja oczywiście nie śpi. NVIDIA ogłosiła w tym miesiącu, że jej nowy akcelerator V100 na bazie architektury Volta jest w stanie zaoferować w obciążeniach roboczych związanych z głębokim uczeniem około 120 TFLOPS. Co szczególnie istotne, w przeciwieństwie do Google’a taki akcelerator każdy może sobie kupić – a nie tylko wynająć na chwilę, jak w wypadku sprzętu Google’a, który nigdy nie trafi na rynek.

© dobreprogramy

Komentarze

r   e   k   l   a   m   a
r   e   k   l   a   m   a
Czy wiesz, że używamy cookies (ciasteczek)? Dowiedz się więcej o celu ich używania i zmianach ustawień.
Korzystając ze strony i asystenta pobierania wyrażasz zgodę na używanie cookies, zgodnie z aktualnymi ustawieniami przeglądarki.