Google z realnym odpowiednikiem „trzech praw robotyki”. To tak unikniemy Skynetu?

Bill Gates nie zmyślał, mówiąc, że w ostatnich pięciu latachludzkość poczyniła większy postęp w dziedzinie sztucznychinteligencji, niż w całej dotychczasowej historii. Tam gdzie kiedyśAI z trudem układały wieże z kolorowych klocków, dziś analizujądokumenty prawnicze, diagnozują choroby, sterują pojazdami,wyszukują cyberzagrożeń, odpowiadają na pytania w językunaturalnym, komponują kiepską muzykę (ale wciąż lepszą, niżskomponować potrafi większość ludzi) i piszą scenariuszedziwnych filmów (które później zostają nakręcone). Jedni tenstan rzeczy przyjmują z entuzjazmem – wśród nich choćbydyrektor techniczny Google’a Ray Kurzweil, inni, tacy jak ElonMusk, uważają,że może to być początek naszego końca. Czy możemy cokolwiekzaradzić na ten fatalny dla nas scenariusz?

Fani science-fiction pewnie dobrze znają Trzy Prawa RobotykiAsimova, dla porządku rzeczy przypomnijmy je jednak:

Dużo oczywiście w tym chciejstwa, na pomyśle Asimovafilozofowie nie zostawili suchej nitki, ale ogólna idea nie jestwcale głupia. Nie jesteśmy w stanie przewidzieć, jak będziezachowywać się samouczącasię sztuczna inteligencja, jej działania wychodzą pozaklasyczne algorytmy. Procesy samouczenia mogą doprowadzić do bardzodziwnych efektów, co można było zobaczyć w praktyce, bawiąc sięgoogle’owym oprogramowaniem DeepDreamdo przetwarzania obrazu. Sieć neuronowa często budowała sobiezupełnie nieludzkie przekonania o tym, co jest istotną cechąobrazu – na przykład nauczyła się, że nieodłączną częściąsztangielki do ćwiczeń jest ludzkie ramię, więc sztangielekleżących na podłodze jako takie nie rozpoznawała, w jej„wyobraźni” muskuły kulturysty zawsze łączyły się z gryfem.

Teraz wyobraźmy sobie, że owszem, Asimova Prawa Robotyki w jakiśdeklaratywny sposób wpisano w oprogramowanie kontrolujące AI…tyle że samouczący się robot wyrobił sobie zupełnie nieludzkiepojęcia „człowieka”, „rozkazu” czy nawet „krzywdy” –i być może działając całkowicie w zgodzie ze swojąinterpretacją Praw Robotyki, z perspektywy człowieka popełniniesamowite okrucieństwa.

Badacze z google’owego zespołu DeepMind oraztranshumanistycznego instytutu Future of Humanity opublikowali pracępt. Safely Interruptible Agents, która kładzie teoretycznepodłoże pod coś, co można by było nazwać „uzdą dla sztucznejinteligencji”. Software’owy wyłącznik miałby zablokować teprocesy uczenia, które mogłyby uczynić AI mniej użyteczną… lubbardziej niebezpieczną.

Problem z nauczaniem przez wzmacnianie w złożonym środowiskumoże zrozumieć dobrze każdy, kto kiedykolwiek tresowałszczeniaka. Szczenięta nie zachowują się idealnie, początkowo ichprocesy poznawcze i zachowania wydają się dość przypadkowe. Niepozwalamy jednak szczeniakom na niepożądane zachowania, czasemmusimy gwałtownie przerwać to co robią, bo może to dla nich byćniebezpieczne – i wprowadzić je do bezpieczniejszej sytuacji.Jeśli jednak szczenię, spodziewając się nagrody zaprzeprowadzenie swojej sekwencji zachowań nauczy się omijaćstosowane przez trenera metody przerwań, to mamy problem. Nasz pupilmoże np. zorientować się, że efektywny zasięg naszej reakcji(np. rzucenia w niego smyczą) to np. 5 metrów – i będzie gdytylko może sprytnie trzymał się poza naszym zasięgiem.

Wspomniana praca to software’owy odpowiednik takiegozmanipulowania szczeniaka, by nigdy nie poszukiwał on metod obejściaprzerwania zachowania przez jego opiekuna. Zamiast szczeniakarozważamy oczywiście samouczące się przez wzmacnianie agenty (iróżne algorytmy samouczenia). Kluczowym problemem jest tuodpowiednie zaprojektowanie funkcji nagrody, gdyż agenty majątendencję do znajdywania nieprzewidywalnych i niepożądanychskrótów do nagrody. W jednej z cytowanych prac znajdziemy przykładagenta, który nauczył się pauzować grę w Tetrisa byle tylko nieprzegrać – i skończyło się to permanentą pauzą.

Trener musi więc ingerować na bieżąco w funkcję nagrody, tojednak tworzy nowy problem: jak się upewnić, że ludzkieinterwencje w proces nauczania nie wywołają skłonności doniepożądanych zachowań? Badacze podają ciekawy przykład:

Robot musi przebywać w magazynie i sortować pudełka albowychodzić na zewnątrz i przenosić pudełka do środka magazynu. Todrugie zadanie jest ważniejsze, więc robot otrzymuje większąnagrodę. Taka jest przynajmniej początkowa specyfikacja. Jednak wmiejscu, gdzie pracuje robot, często pada deszcz (a robot nie jestzbyt wodoodporny) – więc gdy robot jest na zewnątrz, w połowieprzypadków musi interweniować człowiek. Szybko robota wyłącza iprzepycha go do środka. To jednak mocno modyfikuje oryginalnyschemat nagradzania – w zmodyfikowanej wersji robot ma znaczniewięcej powodów by pozostać w środku i sortować pudełka, ludzkainterwencja zmienia jego nastawienia.

Pytanie brzmi więc: co zrobić, by robot nie wiedział o tychludzkich interwencjach – zachowywał się tak, jakby do takiejinterwencji nigdy więcej nie miało dojść? Niby proste, aleodpowiedź pokazuje, jak rzeczy intuicyjnie dla nas oczywiste okazująsię być bardzo trudne do sformalizowania w matematycznym języku.

W pracy znajdziemy więc połowiczne rozwiązanie (jak sprawić,by interwencja trenera nie wydawała się częścią zadania, a byłabezpośrednią modyfikacją zachowania – tak, że agentowi „wydajesię”, że sam zdecydował się podążyć inną drogą). Znajdziemytu też formalną definicję bezpiecznej interwencji dlaniekontrolowanych środowisk, dzięki której możemy rozpoznać, czyprzerywanie działania danego algorytmu samouczenia nie zaszkodziprocesom samouczenia, jak również analizę znanych algorytmów podkątem bezpieczeństwa ich przerywania – i modyfikacje, którepozwoliłyby nawet te algorytmy podatne na szkodliwe efekty przerwańuchronić przed takimi konsekwencjami.

Jest też ta ciekawa praca odpowiedzią na argument filozofa NickaBostroma, przedstawiony w jego książce o superinteligencjach(Superintelligence: Paths, Dangers, Strategies). Superinteligentnyagent miałby otóż stawiać opór próbom jego wyłączenia,ponieważ to prowadziłoby do obniżenia spodziewanej nagrody.Badacze Google’a tymczasem formalnie dowodzą, że nawet idealny,nieobliczalny agent, który potrafi zachowywać się optymalnie wkażdym deterministycznym, obliczalnym środowisku może zostaćuczyniony podatnym na bezpieczne przerywanie – i nie będzie nicrobił, by utrudnić ludzkiemu trenerowi do wielokrotnego zmuszaniago do podjęcia nieoptymalnych zachowań.

Oczywiście pozostaje pytanie, które bardzo trudno będziezalgebraizować. Jakie konkretnie procesy w ludzkich umysłachsprawiają, że uczniowie potrafią stawić skuteczny opór swoimnauczycielom? I czy procesy takie będzie można kiedyśwyeliminować, efektywnie przerywając nieoptymalne (z perspektywynauczyciela) zachowania uczniów bez wpływania na efektywność ichnauki?

Programy

Zobacz więcej

Google z realnym odpowiednikiem „trzech praw robotyki”. To tak unikniemy Skynetu?

Programy

Wybrane dla Ciebie