Jak uprawiać naukę, gdy najszybsza z kart graficznych ma problemy z dodawaniem?

Debiut graficznej mikroarchitekturyVolta był dość specyficzny – Nvidia pokazując Titana V,niewątpliwie najpotężniejszą kartę graficzną na rynku, mówiłaprzede wszystkim o zastosowaniach profesjonalnych, naukowych. Gracze?Jacy gracze? Niemal 14 TFLOPS pojedynczej precyzji, niemal 7 TFLOPSpodwójnej i niemal 28 TFLOPS podwójnej uczyniło kartę za jedyne 3tysiące dolarów prawdziwym biurkowym superkomputerem dlainżynierów, projektantów i trenerów sieci neuronowych. Tymbardziej głupio wygląda usterka, którą Nvidia obecnie próbujezwalczyć – karty Volty mają problemy z podstawową arytmetyką.

Coraz więcej posiadaczy Titana V donosi o niewiarygodnościobliczeń przeprowadzanych na superwydajnej karcie graficznej.Pierwszym, który zauważył problem był jeden z czytelnikówserwisu The Register, który zajmował się symulacjami interakcjibiałek i enzymów. Odkrył, że identyczne symulacje zwracały muróżne numerycznie wyniki. Sięgnął po inne egzemplarze karty, posprawdzeniu czterech sztuk ustalił, że dwie z nich popełniałybłędy obliczeniowe w 10 procentach przypadków.

Inżynier przetestował swoje obciążenia robocze na kartach zpoprzednimi generacjami mikroarchitektury Nvidii, Pascal i Maxwell –nic podobnego się nie wydarzało. Zdaniem odkrywcy, problem możeleżeć po stronie pamięci: 12 GB w układach HBM2, 1700megatransferów na sekundę, przepustowość ponad 650 GB/s. Nvidiapo prostu podkręciła pamięć swojej karty graficznej do granicfizycznej możliwości, to zaś zaowocowało błędami odczytu. Aprzecież trzeba pamiętać, że mimo ceny to wciąż nie jestporządna karta graficzna do stacji roboczych, nie mamy sprzętowejkorekcji błędów.

W tej sytuacji naukowcy i inżynierowie po prostu nie mogą ufaćwynikom symulacji przeprowadzanych na najnowszym sprzęcie Nvidii,wszędzie tam, gdzie dokładność odgrywa kluczową rolę. Cierpiącyz powodu tych usterek pod warunkiem zachowania anonimowościpowiedzieli dziennikarzom The Register, że najlepszym obecnierozwiązaniem jest po prostu zaprzestanie korzystania z Titana V –przynajmniej do czasu, aż pojawią się nowe sterowniki, które nadrodze software’owej wyeliminują możliwość powstawania usterek.Zapewne będzie to wiązało się jednak ze zmniejszeniem wydajnościkart.

Dopiero w przeddzień rozpoczynającej się w tym tygodniu GPUTechnology Conference, zieloni odpowiedzieli na stawiane imzarzuty. Firma przyznała, że jest świadoma wystepowania takichproblemów przynajmniej w jednej aplikacji – popularnym wśródchemików pakiecie do symulacji dynamiki molekularnej Amber.Zarazem jednak podkreślono, że *wszystkie GPU Nvidii dodająpoprawnie. Nasza linia Tesla, która ma pamięć ze sprzętowąkorekcją błędów (ECC), jest przeznaczona dla tego typuwielkoskalowych, wysokowydajnych symulacji. Każdy, kto doświadczyłproblemów, powinien skontaktować się z nami – *stwierdziłrzecznik Nvidii.

Ciekawa to deklaracja, właściwie zgodna z nowymi warunkamilicencjonowania sterowników dla kart GeForce GTX i Titan – napoczątku tego roku zieloni zakazalikorzystania z nich w centrach danych do jakichkolwiek zastosowańnaukowych czy analitycznych. Gdy jednak zobaczymy stronę Titana V(sprzedawanego co ciekawe w liczbie co najwyżej dwóch sztuk naklienta), przeczytamy, że Volta jest nową siłą napędzającąsztuczną inteligencję, Volta przyniesie przełomy w każdejdziedzinie przemysłu, największe projekty ludzkości takie jakwyeliminowanie raka, inteligentny handel i samoprowadzące się autasą w zasięgu tej nowej ery.

To jak to jest ztym eliminowaniem raka? Można używać do tego Volty, czy nie można?