W 70 godzin od zera do arcymistrza: AlphaGo Zero pokazuje potencjał AI

W 70 godzin od zera do arcymistrza: AlphaGo Zero pokazuje potencjał AI19.10.2017 12:57

Ludzie nie mają już żadnych szans w go. O ilenajwięksi mistrzowie tej gry, tacy jak Lee Sedol czy Ke Jie mogliprzynajmniej próbować grać z AlphaGo, sztuczną inteligencjąnależącego do Google startupu DeepMind, to nowa wersja AlphaGo wswojej grze wychodzi już poza naszą skalę. Złożoność gry rzędu10^360 nie stanowi już dla maszynowego intelektu żadnej przeszkody.

Zespół badaczy DeepMind opublikował w Nature artykuł pt.Mastering the game of Go without human knowledge, opisującydziałanie sztucznej inteligencji AlphaGo Zero, następcy wycofanegojuż mistrzowskiego AlphaGo. Celem jej powstania było zbadanie, comoże system, który uczy się całkowicie bez ludzkiego udziału.Niespodziewanie dla siebie, rezygnując z ludzkiego pierwiastka,DeepMind stworzył najlepszego gracza go w historii.

Dlaczego najlepszego? Po swoim okresie samodzielnego treningu,AlphaGo Zero wystawiono przeciwko poprzedniemu czempionowi, AlphaGo,w meczu stu gier. Alpha Go Zero wygrał stosunkiem 100:0, stosującprzy tym strategie, jakich nigdy wcześniej jeszcze nie widziano wgrach między ludźmi. Dla nowego czempiona ludzka wiedza iumiejętności nie są już żadnym wartym uwagi wskaźnikiem, możeon grać już tylko sam ze sobą.

W nowej wersji AI zastosowano innowacyjną formę uczenia przezwzmacnianie, w której AlphaGo Zero stało się swoim własnymnauczycielem. Początkowo sieć neuronowa nic nie wiedziała o grze.Rozgrywając gry przeciwko samej sobie, łączyła swoją sieć zwydajnym algorytmem wyszukiwania. Dostrajał on sieć pod kątemprzewidywania ruchów i wskazywania zwycięzcy.

Wyćwiczona tak AI, w połączeniu z algorytmem wyszukiwania,tworzyła nową, silniejszą wersję AlphaGo Zero, powtarzającproces gry ze sobą. Iteracja po iteracji rosła wydajność systemui jakość rozgrywanych gier. Napędzane nowym hardware AI (zamiastpierwotnych 176 procesorów graficznych Nvidii, jedynie cztery TPU –tensorowe jednostkiobliczeniowe Google’a), stosując liczne uproszczenia warchitekturze, osiągnęło znacznie wyższy poziom ogólnościswojej inteligencji.

Alpha Go Zero nie potrzebuje już więc żadnych dodatkowychinformacji poza ustawieniem kamieni na planszy. Korzysta też tylko zjednej sieci neuronowej zamiast dwóch, pozwalając na efektywniejszetrenowanie (wcześniej stosowano sieć polityk do wyboru następnegoruchu i sieć wartości do przewidywania zwycięzcy po każdymruchu). Wreszcie też nie prowadzi już szybkich losowych gier doprzewidywania zwycięstwa przy danej pozycji, lecz szacuje pozycje zapomocą wysokiej jakości sieci neuronowej.

Pracujący dla Google’a naukowcy są przekonani, że to dopieropoczątek. Ich zdaniem podobne techniki mogą zostać zastosowanew innych ustrukturyzowanych zagadnieniach, takich jak fałdowaniebiałek, poszukiwanie nowych materiałów czy zmniejszenie zużyciaenergii, przynosząc przełomowe dla społeczeństwa wyniki.

Oczywiście z zagadnieniami nieustrukturyzowanymi jest znaczniegorzej. Samodoskonalenie sprawdza się w grze w go, jednak w grach zukrytą lub ograniczoną informacją, takich jak StarCraft, trudnobędzie tą metodą poradzić sobie z trudniejszymi wyzwaniami,przyznają badacze. To dla mięsnych inteligencji dobra wiadomość –jako że zaś świat jest znacznie bardziej podobny do StarCrafta,niż do go, póki co nie musimy się obawiać, że AlphaGo Zero zczasem stanie się superinteligencją na miarę Skynetu.

SumaiL 1v1

Słowo klucz to „póki co” – badacze z projektu OpenAIniedawno opublikowali wyniki grania samouczących się sztucznychinteligencji w popularną grę Dota2. AI, które zaczęło naukę z początkiem marca, w sierpniuzdołało pokonać najlepszych ludzkich graczy, takich jak SumaiL.

Szanowna Użytkowniczko! Szanowny Użytkowniku!
×
Aby dalej móc dostarczać coraz lepsze materiały redakcyjne i udostępniać coraz lepsze usługi, potrzebujemy zgody na dopasowanie treści marketingowych do Twojego zachowania. Twoje dane są u nas bezpieczne, a zgodę możesz wycofać w każdej chwili na podstronie polityka prywatności.

Kliknij "PRZECHODZĘ DO SERWISU" lub na symbol "X" w górnym rogu tej planszy, jeżeli zgadzasz się na przetwarzanie przez Wirtualną Polskę i naszych Zaufanych Partnerów Twoich danych osobowych, zbieranych w ramach korzystania przez Ciebie z usług, portali i serwisów internetowych Wirtualnej Polski (w tym danych zapisywanych w plikach cookies) w celach marketingowych realizowanych na zlecenie naszych Zaufanych Partnerów. Jeśli nie zgadzasz się na przetwarzanie Twoich danych osobowych skorzystaj z ustawień w polityce prywatności. Zgoda jest dobrowolna i możesz ją w dowolnym momencie wycofać zmieniając ustawienia w polityce prywatności (w której znajdziesz odpowiedzi na wszystkie pytania związane z przetwarzaniem Twoich danych osobowych).

Od 25 maja 2018 roku obowiązuje Rozporządzenie Parlamentu Europejskiego i Rady (UE) 2016/679 (określane jako "RODO"). W związku z tym chcielibyśmy poinformować o przetwarzaniu Twoich danych oraz zasadach, na jakich odbywa się to po dniu 25 maja 2018 roku.

Kto będzie administratorem Twoich danych?

Administratorami Twoich danych będzie Wirtualna Polska Media Spółka Akcyjna z siedzibą w Warszawie, oraz pozostałe spółki z grupy Wirtualna Polska, jak również nasi Zaufani Partnerzy, z którymi stale współpracujemy. Szczegółowe informacje dotyczące administratorów znajdują się w polityce prywatności.

O jakich danych mówimy?

Chodzi o dane osobowe, które są zbierane w ramach korzystania przez Ciebie z naszych usług, portali i serwisów internetowych udostępnianych przez Wirtualną Polskę, w tym zapisywanych w plikach cookies, które są instalowane na naszych stronach przez Wirtualną Polskę oraz naszych Zaufanych Partnerów.

Dlaczego chcemy przetwarzać Twoje dane?

Przetwarzamy je dostarczać coraz lepsze materiały redakcyjne, dopasować ich tematykę do Twoich zainteresowań, tworzyć portale i serwisy internetowe, z których będziesz korzystać z przyjemnością, zapewniać większe bezpieczeństwo usług, udoskonalać nasze usługi i maksymalnie dopasować je do Twoich zainteresowań, pokazywać reklamy dopasowane do Twoich potrzeb. Szczegółowe informacje dotyczące celów przetwarzania Twoich danych znajdują się w polityce prywatności.

Komu możemy przekazać dane?

Twoje dane możemy przekazywać podmiotom przetwarzającym je na nasze zlecenie oraz podmiotom uprawnionym do uzyskania danych na podstawie obowiązującego prawa – oczywiście tylko, gdy wystąpią z żądaniem w oparciu o stosowną podstawę prawną.

Jakie masz prawa w stosunku do Twoich danych?

Masz prawo żądania dostępu, sprostowania, usunięcia lub ograniczenia przetwarzania danych. Możesz wycofać zgodę na przetwarzanie, zgłosić sprzeciw oraz skorzystać z innych praw wymienionych szczegółowo w polityce prywatności.

Jakie są podstawy prawne przetwarzania Twoich danych?

Podstawą prawną przetwarzania Twoich danych w celu świadczenia usług jest niezbędność do wykonania umów o ich świadczenie (tymi umowami są zazwyczaj regulaminy). Podstawą prawną przetwarzania danych w celu pomiarów statystycznych i marketingu własnego administratorów jest tzw. uzasadniony interes administratora. Przetwarzanie Twoich danych w celach marketingowych realizowanych przez Wirtualną Polskę na zlecenie Zaufanych Partnerów i bezpośrednio przez Zaufanych Partnerów będzie odbywać się na podstawie Twojej dobrowolnej zgody.