PathNet: Google pokazało, jak będzie działać ogólna sztuczna inteligencja

PathNet: Google pokazało, jak będzie działać ogólna sztuczna inteligencja10.03.2017 12:35

Marvin Minsky, pionier sztucznej inteligencji, zmarł w zeszłymroku. Nie zobaczył więc tego, o czym marzył całe życie –ogólnej sztucznej inteligencji, takiej, która jest w stanieprzenosić wyuczone umiejętności na inne dziedziny. Pierwszy realnykrok w stronę powstania takiej właśnie sztucznej inteligencjiprzedstawia dziś zespół Google Deep Mind. W artykule pt. PathNet:Evolution Channels Gradient Descent in Super Neural Networksopisane zostało działanie sieci utworzonej z sieci neuronowych,która jest w stanie transferować wyuczoną wiedzę.

Transfer umiejętności, czy też zjawisko przenoszenia wprawy,stanowi jedno z największych wyzwań dla AI. Chodzi o to, bysztuczna inteligencja ucząc się różnych dziedzin była w staniewykorzystać swoją dotychczas wyuczoną wiedzę w zupełnie nowychdziedzinach. Zakłada się, że będzie wówczas spisywała sięlepiej, niż zupełnie nowa sieć neuronowa.

Należący doGoogle’a startup DeepMind wsławił się już znaczącymiosiągnięciami. To jego badacze stworzyli siećneuronową z pamięcią i uwagą, to oni stworzyli pierwszegeneralizująceAI, uogólniające wyuczone aktywności, oni też przygotowaliAlphaGo,pierwsze AI, które pokonało najlepszego ludzkiego gracza go. Terazdemonstrują PathNet, sieć sieci neuronowych, która grając w jednąprostą grę na Atari, staje się coraz lepsza w innych grach.

Populacja losowo inicjowanych ścieżek (fioletowe linie w boksie 1) ewoluują podczas nauk zadania A (gry w Ponga). Pod koniec nauki ustalana jest najlepsza ścieżka (czerwona) w boksie 5, powstaje tam nowa populacja ścieżek (jasnoniebieskich) dla zadania B.
Populacja losowo inicjowanych ścieżek (fioletowe linie w boksie 1) ewoluują podczas nauk zadania A (gry w Ponga). Pod koniec nauki ustalana jest najlepsza ścieżka (czerwona) w boksie 5, powstaje tam nowa populacja ścieżek (jasnoniebieskich) dla zadania B.

W skład PathNetu wchodzą różne sieci neuronowe – czy tojednokierunkowe, rekurencyjne, czy splotowe (konwolucyjne), trenowanezarówno metodą stochastycznego gradientu jak i genetycznejselekcji. Ułożone są one w warstwy modułów, a w tych modułachosadzone są agenty, których zadaniem jest odkrywanie, które częścisieci można wykorzystać do nowych zadań. Są to ścieżki przezsieć, określające podzbiór parametrów wykorzystywanych iprzekazywanych przez algorytm wstecznej propagacji.

Podczas uczenia się, algorytm genetyczny selekcji turniejowejwybiera ścieżki do replikacji i mutacji, uwzględniając ichgenetyczne fitness – mierzoną wydajność ścieżki. I jakwykazują autorzy pracy, ustalenie parametrów wzdłuż ścieżkiwyuczonej dla zadania A i wyewoluowanie z nich ścieżek dla zadaniaB pozwoliło wyuczyć się zadania B znacznie szybciej, niż robiłato sieć ucząca się od podstaw.

Jak działa takie szkolenie i transfer umiejętności? Mamyokreśloną liczbę warstw i modułów – zaprezentowany przezbadaczy przykład to układ 3×3. Po zdefiniowaniu tych modułów wsieci generowana jest określona liczba poddanych genetycznejselekcji ścieżek w sieci. Następnie wyzwalane są zadania(workers), używające asynchronicznego algorytmu AdvantageActor-Critic (A3C) do oceny każdej ścieżki – po wiele takichzadań na każdą.

Po określonej liczbie iteracji zadanie wybiera sobie ścieżki doporównania – i jeśli znajdzie ścieżkę o wyższym fitness, toprzyjmuje ją do dalszego szkolenia. Jeśli nie, to dalej poszukujeścieżek do porównania. Proces szkolenia ścieżki przeprowadzanyjest metodą gradientu stochastycznego ze wsteczną propagacją pojednej ścieżce naraz. Po wyuczeniu się zadania, sieć ustawiasobie parametry optymalnej ścieżki, nie modyfikując optymalnychścieżek wyuczonych dla poprzednich zadań.

Pomiar transferu umiejętności z gry do gry, dla nowych sieci, ręcznej optymalizacji i PathNetu. Powyżej 1 to przyspieszenie, poniżej 1 to spowolnienie nauki
Pomiar transferu umiejętności z gry do gry, dla nowych sieci, ręcznej optymalizacji i PathNetu. Powyżej 1 to przyspieszenie, poniżej 1 to spowolnienie nauki

Z przedstawionych przykładów dla zestawu gier Atari możemyzobaczyć, że nie dla każdej pary gier transfer umiejętnościzadziałał, ale tak, gdzie się udało, wyniki są świetne. W parzeRobotank – Riverraid osiągnięto niemal siedmiokrotneprzyspieszenie względem świeżej sieci. Zdaniem autorów,przeniesienie tych metod na znacznie większe sieci, wykorzystywane wzadaniach w świecie rzeczywistym (np. sterowaniu ruchem robotów),przyniesie jeszcze lepsze efekty.

Warto zauważyć, że to co prezentuje PathNet dawno temustworzyła już ewolucja biologiczna – chodzi o takie specyficznepodkorowe struktury anatomiczne u ssaków, jądra podstawne. Toskupiska ciał komórek nerwowych bez wypustek, które wysyłająprojekcje do kory, wzgórza i pnia mózgu. Neurobiolodzy uważają,że odgrywają one kluczową rolę w procesach uczenia się,przetwarzaniu emocji i kontroli ruchowej organizmów. W pewnym sensiemożna więc powiedzieć, że zespół Google’a krok po krokutworzy sztuczny odpowiednik zaawansowanego organicznego mózgu,przewyższający jednak ten organiczny szybkością, skalowalnościąi łatwością replikacji.

Cały artykuł badaczy z DeepMind dostępny jest za darmo na arXiv.org

.

Źródło artykułu:www.dobreprogramy.pl
Szanowna Użytkowniczko! Szanowny Użytkowniku!
×
Aby dalej móc dostarczać coraz lepsze materiały redakcyjne i udostępniać coraz lepsze usługi, potrzebujemy zgody na dopasowanie treści marketingowych do Twojego zachowania. Twoje dane są u nas bezpieczne, a zgodę możesz wycofać w każdej chwili na podstronie polityka prywatności.

Kliknij "PRZECHODZĘ DO SERWISU" lub na symbol "X" w górnym rogu tej planszy, jeżeli zgadzasz się na przetwarzanie przez Wirtualną Polskę i naszych Zaufanych Partnerów Twoich danych osobowych, zbieranych w ramach korzystania przez Ciebie z usług, portali i serwisów internetowych Wirtualnej Polski (w tym danych zapisywanych w plikach cookies) w celach marketingowych realizowanych na zlecenie naszych Zaufanych Partnerów. Jeśli nie zgadzasz się na przetwarzanie Twoich danych osobowych skorzystaj z ustawień w polityce prywatności. Zgoda jest dobrowolna i możesz ją w dowolnym momencie wycofać zmieniając ustawienia w polityce prywatności (w której znajdziesz odpowiedzi na wszystkie pytania związane z przetwarzaniem Twoich danych osobowych).

Od 25 maja 2018 roku obowiązuje Rozporządzenie Parlamentu Europejskiego i Rady (UE) 2016/679 (określane jako "RODO"). W związku z tym chcielibyśmy poinformować o przetwarzaniu Twoich danych oraz zasadach, na jakich odbywa się to po dniu 25 maja 2018 roku.

Kto będzie administratorem Twoich danych?

Administratorami Twoich danych będzie Wirtualna Polska Media Spółka Akcyjna z siedzibą w Warszawie, oraz pozostałe spółki z grupy Wirtualna Polska, jak również nasi Zaufani Partnerzy, z którymi stale współpracujemy. Szczegółowe informacje dotyczące administratorów znajdują się w polityce prywatności.

O jakich danych mówimy?

Chodzi o dane osobowe, które są zbierane w ramach korzystania przez Ciebie z naszych usług, portali i serwisów internetowych udostępnianych przez Wirtualną Polskę, w tym zapisywanych w plikach cookies, które są instalowane na naszych stronach przez Wirtualną Polskę oraz naszych Zaufanych Partnerów.

Dlaczego chcemy przetwarzać Twoje dane?

Przetwarzamy je dostarczać coraz lepsze materiały redakcyjne, dopasować ich tematykę do Twoich zainteresowań, tworzyć portale i serwisy internetowe, z których będziesz korzystać z przyjemnością, zapewniać większe bezpieczeństwo usług, udoskonalać nasze usługi i maksymalnie dopasować je do Twoich zainteresowań, pokazywać reklamy dopasowane do Twoich potrzeb. Szczegółowe informacje dotyczące celów przetwarzania Twoich danych znajdują się w polityce prywatności.

Komu możemy przekazać dane?

Twoje dane możemy przekazywać podmiotom przetwarzającym je na nasze zlecenie oraz podmiotom uprawnionym do uzyskania danych na podstawie obowiązującego prawa – oczywiście tylko, gdy wystąpią z żądaniem w oparciu o stosowną podstawę prawną.

Jakie masz prawa w stosunku do Twoich danych?

Masz prawo żądania dostępu, sprostowania, usunięcia lub ograniczenia przetwarzania danych. Możesz wycofać zgodę na przetwarzanie, zgłosić sprzeciw oraz skorzystać z innych praw wymienionych szczegółowo w polityce prywatności.

Jakie są podstawy prawne przetwarzania Twoich danych?

Podstawą prawną przetwarzania Twoich danych w celu świadczenia usług jest niezbędność do wykonania umów o ich świadczenie (tymi umowami są zazwyczaj regulaminy). Podstawą prawną przetwarzania danych w celu pomiarów statystycznych i marketingu własnego administratorów jest tzw. uzasadniony interes administratora. Przetwarzanie Twoich danych w celach marketingowych realizowanych przez Wirtualną Polskę na zlecenie Zaufanych Partnerów i bezpośrednio przez Zaufanych Partnerów będzie odbywać się na podstawie Twojej dobrowolnej zgody.