Sztuczna Inteligencja opanowała współpracę. Wygrywa z ludźmi w Dota 2

Testowanie programów komputerowych w grach przeciwko człowiekowi ma długą tradycję. Przez dziesięciolecia były to szachy, potem program AlphaGo pokonał człowieka w Go. Obecnie SI jest wystawiana przeciwko ludziom w grach strategicznych, gdzie odniosła wart odnotowania sukces. Program w pewnych warunkach wygrywa z graczami w Dota 2. Warto zaznaczyć, że poprzeczka nie stała wysoko – SI nie starła się jeszcze z profesjonalnymi graczami.

Anna Rymsza

29 czerwca 2018, 12:49

W Dota 2 zagrały boty sterowane przez OpenAI Five – SI ogólnego zastosowania, rozwijaną przez organizację OpenAI, współfinansowaną przez Elona Muska. Celem jej istnienia jest edukacja i podnoszenie świadomości społeczeństwa na temat sztucznej inteligencji i jej obecnego stanu. W tym zawiera się przekonanie nas, że sztuczne sieci neuronowe są zupełnie bezpieczne i mogą przynieść nam ogromne korzyści w przyszłości.

Należy tu wyjaśnić, że gra w Dota 2 jest problemem innego typu niż szachy czy go. Gry te odbywają się w turach, podczas których SI ma sporo czasu na wypracowanie kolejnego ruchu, co nawet AlphaGo zajmowało kilka minut. Dota 2 zaś wymaga podejmowania decyzji w czasie rzeczywistym i jednoczesnego monitorowania stanu gry. Gra jest rozgrywana w 30 klatkach na sekundę, a jedna partia trwa niecałą godzinę (średnio 45 minut). Daje to 80 tysięcy ramek, z czego SI analizuje co czwartą. Proces ten jest bardzo wymagający obliczeniowo i gdyby nie możliwości przetwarzania w chmurze, w ogóle nie byłoby możliwości postawienia SI przeciwko ludziom w takiej grze. OpenAI Five to 5 osobnych modeli, działających na 124 tysiącach rdzeni CPU i 256 GPU w Google Cloud.

Sztuczne sieci neuronowe współpracują tak samo, jak 5-osobowe zespoły graczy z krwi i kości. Każda z nich zbudowana jest z jednej warstwy 1024 jednostek LSTM (Long Short Term Memory, zaprojektowane, by radzić sobie z zależnością od danych przechowywanych długoterminowo), obserwującej stan gry przez Bot API, dostarczone przez Valve. Wybrane akcje są wysyłane przez kilka wyjść, mających znaczenie semantyczne. Dzięki temu OpenAI Five może opóźnić polecenie i określić jego współrzędne.

reprezentacja ludzi, złożona z pracowników OpenAI, grających w Dota2 amatorsko

OpenAI wcześniej trenowała sama ze sobą. W sumie boty rozgrywały codziennie mecze, które ludziom zajęłyby 180 lat – sporo więcej, niż byłby w stanie przyjąć trenujący zawodnik. Mimo tego program wciąż ma problemy z wieloma aspektami gry i wygrywa tylko w określonych warunkach. SI bardzo długo uczyła się wychodzić ze stref odłamków, choć jeszcze nie potrafi w ogóle w nie nie wchodzić. Nie radzi sobie jeszcze z niektórymi postaciami, przedmiotami i strategiami. Ten przykład pokazuje jednak, że bez wprowadzania danych generowanych przez ludzi SI może osiągnąć wysoki poziom umiejętności planowania z użyciem stosowanych aktualnie metod, choć wcześniej przypuszczano, że potrzebne będzie uczenie hierarchiczne przez wzmacnianie. Najwyraźniej autorzy eksperymentu nie docenili swojego modelu. Potrzebna moc obliczeniowa jest oczywiście ogromna, ale nie niemożliwa do uzyskania.

W przeciwieństwie do rozgrywek turowych gry jak StarCraft czy Dota 2 przypominają rzeczywistość. SI musi więc opanować planowanie długoterminowe na dużo większą skalę niż w przypadku szachów. Mówimy tu o 10 tysiącach ruchów w Dota 2 przeciwko mniej niż 40 w szachach i mniej niż 150 ruchach w Go. Ponadto model gry jest tworzony na podstawie obserwacji jedynie części planszy widocznej wokół bohatera, więc SI musi operować na niekompletnych informacjach i ruchach przeciwnika. Sama mapa także jest o dwa rzędy wielkości większa niż w klasycznych grach strategicznych. Przytłaczająca jest także liczba akcji, które może wykonać każdy bohater. Łącznie z ruchami i zaklęciami prowadzący eksperyment oszacowali, że na każdą z postaci przypada 170 tysięcy akcji, przy czym w danym cykli (czas dla SI został podzielony dyskretnie) można wykonać około tysiąca. W szachach będzie to średnio 35 akcji, w Go 250. Nie pomaga też ciągły rozwój gry Dota 2, która z każdą aktualizacją dostaje drobne zmiany parametrów.

#AI bots just beat humans at the video game Dota 2. That’s a big deal, because their victory required teamwork and collaboration – a huge milestone in advancing artificial intelligence. https://t.co/UqIUhh9xFc

— Bill Gates (@BillGates) 26 czerwca 2018Gracze też mogą się czegoś nauczyć od SI. Jednostki OpenAI Five doskonale ze sobą współpracują, realizując ogólną strategię. To właśnie umiejętność współpracy zadziwia najbardziej. SI bardzo dobrze radzi sobie z osaczaniem postaci z drużyny przeciwnej i relatywnie szybko wpadła na to, że może poświęcić swoją część mapy, by zająć safe lane przeciwnika i przenieść potyczkę na drugą stronę planszy. SI ma też tendencję do inwestowania w postacie wspierające wcześniej, niż żywi gracze, dzięki czemu szybciej osiąga szczytowe możliwości.

Mimo pewnych problemów i ciągłej walki z błędami OpenAI Five wystartuje w Mistrzostwach Świata Dota 2 w sierpniu. Pula nagród wynosi 40 milionów dolarów i jest to najlepiej opłacany turniej e-sportowy. W przyszłym miesiącu na Twitchu będzie można obejrzeć transmisję meczu przeciwko profesjonalnym graczom.

Anna Rymsza