Sieci neuronowe Google'a skuteczniejsze niż ludzie, nie dały testowi reCAPTCHA żadnych szans

O google'owych testach reCAPTCHA zrobiło się u nas ostatnioponownie głośno, gdy Aero2 wykorzystało je do zablokowaniaautomatycznych uwierzytelnień do swojej usługi dostępu doInternetu. Jednym z argumentów na rzecz reCAPTCHA przytaczanychprzez Aero2 było bezpieczeństwo tego rozwiązania.Okazuje się jednak, że aż tak bezpieczne reCAPTCHA nie jest, nawetdla samego Google'a. Wyszukiwarkowy gigant sam pochwalił się nowymalgorytmem, który przechodzi test reCAPTCHA w 99,8% wypadków. Czyczeka nas teraz dalsza eskalacja utrudnień?

Adam Golański

17 kwietnia 2014, 14:47

Rozwiązywanie testu reCAPTCHAnie było wcale zadaniem zespołu informatyków Google'a, którzyopublikowali właśnie pracępt. Multi-digit Number Recognition from Street View Imageryusing Deep Convolutional Neural Networks.Ich zadaniem było ulepszenie algorytmów wykorzystywanych do obróbkifotografii z usługi Street View, by pozyskiwać z nich numerybudynków, potrzebne do budowania baz adresowych dla Map Google.

Sieć neuronowa DistBelief nie ma problemu z takimi testami

To nie jest łatwy problem:liczba możliwych wariacji w wyglądzie napisów, ich orientacji,kolorze, stylizacji, tle i oświetleniu jest ogromna. Standardoweskanery OCR, zajmujące się przetwarzaniem obrazów wydrukowanegotekstu na ciągi tekstowe słabo sobie z nim radzą. Zaproponowaneprzez badaczy Google'a rozwiązanie wykorzystywało technikitrenowania dużych, rozproszonych, zawiłychsieci neuronowych na obrazach o wysokiej jakości. Architekturatakich sieci jest bezpośrednio inspirowana układem komórek w korzewzrokowej wyższych kręgowców. W tym konkretnym wypadkuwykorzystano software'owy system DistBelief,pozwalający na wykorzystanie klastrów obliczeniowych z tysiącamimaszyn i dziesiątkami tysięcy rdzeni CPU.

Zastosowanie DistBelief napublicznie dostępnym zbiorze Street View House Numbers (SVHN)pozwoliło na ponad 96-procentową dokładność w rozpoznawaniuulicznej numeracji. Wobec znacznie trudniejszego zbioru danych zeStreet View, obejmującego dziesiątki milionów zdjęć ulic zcałego świata, skuteczność wyniosła około 90%. To wynikiporównywalne z możliwościami ludzkich operatorów, nic więcdziwnego, że w tak zautomatyzowany sposób wydobyto ze zdjęć ponad100 milionów ulicznych numerów.

DistBelief nadaje się jednak nietylko do analizy fotografii. Sprawdzono jego możliwości względemtestu reCAPTCHA, wykorzystywanego na setkach tysięcy stroninternetowych do odróżniania ludzi od botów i ochrony przedspamem. Zawiła sieć neuronowa nie dała testowi żadnych szans,rozwiązując nawet najtrudniejsze formy reCAPTCHA ze skutecznościąna poziomie 99,8%. To wynik daleko lepszy, niż w wypadku ludzi,mających w tych czasach coraz większe problemy z rozpoznawaniemniemożliwie wręcz deformowanych napisów.

Czy to osiągnięcie podważawartość testu? Zdaniem Google'a niekoniecznie, gdyż dziśreCAPTCHA jest mniej zależna od poprawnego odczytania tekstu, niżkiedykolwiek wcześniej, zamiast tego analizując szerszy zbiórwskazówek wynikających z aktywności użytkownika. Wpisanie tekstujest tylko jedną z nich.

Niebawem powinno okazać się, naile twórcy systemów do automatycznego przechodzenia testów CAPTCHAbędą podzielali tę opinię. Zmniejszenie wagi poprawnegoodczytania testu jako kluczowego dowodu „człowieczeństwa” możeparadoksalnie doprowadzić teraz do dalszego utrudnienia życiainternautom, którzy zaczną odkrywać, że nawet poprawne odczytaniezagmatwanego napisu nie jest gwarancją poprawnego przejścia testu,gdyż np. interwały między naciśnięciami klawiszy nie były takiejak trzeba.

Źródło artykułu: www.dobreprogramy.pl

oprogramowanie