Google z realnym odpowiednikiem „trzech praw robotyki”. To tak unikniemy Skynetu?

Google z realnym odpowiednikiem „trzech praw robotyki”. To tak unikniemy Skynetu?12.06.2016 20:48

Bill Gates nie zmyślał, mówiąc, że w ostatnich pięciu latachludzkość poczyniła większy postęp w dziedzinie sztucznychinteligencji, niż w całej dotychczasowej historii. Tam gdzie kiedyśAI z trudem układały wieże z kolorowych klocków, dziś analizujądokumenty prawnicze, diagnozują choroby, sterują pojazdami,wyszukują cyberzagrożeń, odpowiadają na pytania w językunaturalnym, komponują kiepską muzykę (ale wciąż lepszą, niżskomponować potrafi większość ludzi) i piszą scenariuszedziwnych filmów (które później zostają nakręcone). Jedni tenstan rzeczy przyjmują z entuzjazmem – wśród nich choćbydyrektor techniczny Google’a Ray Kurzweil, inni, tacy jak ElonMusk, uważają,że może to być początek naszego końca. Czy możemy cokolwiekzaradzić na ten fatalny dla nas scenariusz?

Fani science-fiction pewnie dobrze znają Trzy Prawa RobotykiAsimova, dla porządku rzeczy przypomnijmy je jednak:

Dużo oczywiście w tym chciejstwa, na pomyśle Asimovafilozofowie nie zostawili suchej nitki, ale ogólna idea nie jestwcale głupia. Nie jesteśmy w stanie przewidzieć, jak będziezachowywać się samouczącasię sztuczna inteligencja, jej działania wychodzą pozaklasyczne algorytmy. Procesy samouczenia mogą doprowadzić do bardzodziwnych efektów, co można było zobaczyć w praktyce, bawiąc sięgoogle’owym oprogramowaniem DeepDreamdo przetwarzania obrazu. Sieć neuronowa często budowała sobiezupełnie nieludzkie przekonania o tym, co jest istotną cechąobrazu – na przykład nauczyła się, że nieodłączną częściąsztangielki do ćwiczeń jest ludzkie ramię, więc sztangielekleżących na podłodze jako takie nie rozpoznawała, w jej„wyobraźni” muskuły kulturysty zawsze łączyły się z gryfem.

Teraz wyobraźmy sobie, że owszem, Asimova Prawa Robotyki w jakiśdeklaratywny sposób wpisano w oprogramowanie kontrolujące AI…tyle że samouczący się robot wyrobił sobie zupełnie nieludzkiepojęcia „człowieka”, „rozkazu” czy nawet „krzywdy” –i być może działając całkowicie w zgodzie ze swojąinterpretacją Praw Robotyki, z perspektywy człowieka popełniniesamowite okrucieństwa.

Badacze z google’owego zespołu DeepMind oraztranshumanistycznego instytutu Future of Humanity opublikowali pracępt. Safely Interruptible Agents, która kładzie teoretycznepodłoże pod coś, co można by było nazwać „uzdą dla sztucznejinteligencji”. Software’owy wyłącznik miałby zablokować teprocesy uczenia, które mogłyby uczynić AI mniej użyteczną… lubbardziej niebezpieczną.

Problem z nauczaniem przez wzmacnianie w złożonym środowiskumoże zrozumieć dobrze każdy, kto kiedykolwiek tresowałszczeniaka. Szczenięta nie zachowują się idealnie, początkowo ichprocesy poznawcze i zachowania wydają się dość przypadkowe. Niepozwalamy jednak szczeniakom na niepożądane zachowania, czasemmusimy gwałtownie przerwać to co robią, bo może to dla nich byćniebezpieczne – i wprowadzić je do bezpieczniejszej sytuacji.Jeśli jednak szczenię, spodziewając się nagrody zaprzeprowadzenie swojej sekwencji zachowań nauczy się omijaćstosowane przez trenera metody przerwań, to mamy problem. Nasz pupilmoże np. zorientować się, że efektywny zasięg naszej reakcji(np. rzucenia w niego smyczą) to np. 5 metrów – i będzie gdytylko może sprytnie trzymał się poza naszym zasięgiem.

Wspomniana praca to software’owy odpowiednik takiegozmanipulowania szczeniaka, by nigdy nie poszukiwał on metod obejściaprzerwania zachowania przez jego opiekuna. Zamiast szczeniakarozważamy oczywiście samouczące się przez wzmacnianie agenty (iróżne algorytmy samouczenia). Kluczowym problemem jest tuodpowiednie zaprojektowanie funkcji nagrody, gdyż agenty majątendencję do znajdywania nieprzewidywalnych i niepożądanychskrótów do nagrody. W jednej z cytowanych prac znajdziemy przykładagenta, który nauczył się pauzować grę w Tetrisa byle tylko nieprzegrać – i skończyło się to permanentą pauzą.

Trener musi więc ingerować na bieżąco w funkcję nagrody, tojednak tworzy nowy problem: jak się upewnić, że ludzkieinterwencje w proces nauczania nie wywołają skłonności doniepożądanych zachowań? Badacze podają ciekawy przykład:

Robot musi przebywać w magazynie i sortować pudełka albowychodzić na zewnątrz i przenosić pudełka do środka magazynu. Todrugie zadanie jest ważniejsze, więc robot otrzymuje większąnagrodę. Taka jest przynajmniej początkowa specyfikacja. Jednak wmiejscu, gdzie pracuje robot, często pada deszcz (a robot nie jestzbyt wodoodporny) – więc gdy robot jest na zewnątrz, w połowieprzypadków musi interweniować człowiek. Szybko robota wyłącza iprzepycha go do środka. To jednak mocno modyfikuje oryginalnyschemat nagradzania – w zmodyfikowanej wersji robot ma znaczniewięcej powodów by pozostać w środku i sortować pudełka, ludzkainterwencja zmienia jego nastawienia.

Pytanie brzmi więc: co zrobić, by robot nie wiedział o tychludzkich interwencjach – zachowywał się tak, jakby do takiejinterwencji nigdy więcej nie miało dojść? Niby proste, aleodpowiedź pokazuje, jak rzeczy intuicyjnie dla nas oczywiste okazująsię być bardzo trudne do sformalizowania w matematycznym języku.

W pracy znajdziemy więc połowiczne rozwiązanie (jak sprawić,by interwencja trenera nie wydawała się częścią zadania, a byłabezpośrednią modyfikacją zachowania – tak, że agentowi „wydajesię”, że sam zdecydował się podążyć inną drogą). Znajdziemytu też formalną definicję bezpiecznej interwencji dlaniekontrolowanych środowisk, dzięki której możemy rozpoznać, czyprzerywanie działania danego algorytmu samouczenia nie zaszkodziprocesom samouczenia, jak również analizę znanych algorytmów podkątem bezpieczeństwa ich przerywania – i modyfikacje, którepozwoliłyby nawet te algorytmy podatne na szkodliwe efekty przerwańuchronić przed takimi konsekwencjami.

Jest też ta ciekawa praca odpowiedzią na argument filozofa NickaBostroma, przedstawiony w jego książce o superinteligencjach(Superintelligence: Paths, Dangers, Strategies). Superinteligentnyagent miałby otóż stawiać opór próbom jego wyłączenia,ponieważ to prowadziłoby do obniżenia spodziewanej nagrody.Badacze Google’a tymczasem formalnie dowodzą, że nawet idealny,nieobliczalny agent, który potrafi zachowywać się optymalnie wkażdym deterministycznym, obliczalnym środowisku może zostaćuczyniony podatnym na bezpieczne przerywanie – i nie będzie nicrobił, by utrudnić ludzkiemu trenerowi do wielokrotnego zmuszaniago do podjęcia nieoptymalnych zachowań.

Oczywiście pozostaje pytanie, które bardzo trudno będziezalgebraizować. Jakie konkretnie procesy w ludzkich umysłachsprawiają, że uczniowie potrafią stawić skuteczny opór swoimnauczycielom? I czy procesy takie będzie można kiedyśwyeliminować, efektywnie przerywając nieoptymalne (z perspektywynauczyciela) zachowania uczniów bez wpływania na efektywność ichnauki?

Szanowna Użytkowniczko! Szanowny Użytkowniku!
×
Aby dalej móc dostarczać coraz lepsze materiały redakcyjne i udostępniać coraz lepsze usługi, potrzebujemy zgody na dopasowanie treści marketingowych do Twojego zachowania. Twoje dane są u nas bezpieczne, a zgodę możesz wycofać w każdej chwili na podstronie polityka prywatności.

Kliknij "PRZECHODZĘ DO SERWISU" lub na symbol "X" w górnym rogu tej planszy, jeżeli zgadzasz się na przetwarzanie przez Wirtualną Polskę i naszych Zaufanych Partnerów Twoich danych osobowych, zbieranych w ramach korzystania przez Ciebie z usług, portali i serwisów internetowych Wirtualnej Polski (w tym danych zapisywanych w plikach cookies) w celach marketingowych realizowanych na zlecenie naszych Zaufanych Partnerów. Jeśli nie zgadzasz się na przetwarzanie Twoich danych osobowych skorzystaj z ustawień w polityce prywatności. Zgoda jest dobrowolna i możesz ją w dowolnym momencie wycofać zmieniając ustawienia w polityce prywatności (w której znajdziesz odpowiedzi na wszystkie pytania związane z przetwarzaniem Twoich danych osobowych).

Od 25 maja 2018 roku obowiązuje Rozporządzenie Parlamentu Europejskiego i Rady (UE) 2016/679 (określane jako "RODO"). W związku z tym chcielibyśmy poinformować o przetwarzaniu Twoich danych oraz zasadach, na jakich odbywa się to po dniu 25 maja 2018 roku.

Kto będzie administratorem Twoich danych?

Administratorami Twoich danych będzie Wirtualna Polska Media Spółka Akcyjna z siedzibą w Warszawie, oraz pozostałe spółki z grupy Wirtualna Polska, jak również nasi Zaufani Partnerzy, z którymi stale współpracujemy. Szczegółowe informacje dotyczące administratorów znajdują się w polityce prywatności.

O jakich danych mówimy?

Chodzi o dane osobowe, które są zbierane w ramach korzystania przez Ciebie z naszych usług, portali i serwisów internetowych udostępnianych przez Wirtualną Polskę, w tym zapisywanych w plikach cookies, które są instalowane na naszych stronach przez Wirtualną Polskę oraz naszych Zaufanych Partnerów.

Dlaczego chcemy przetwarzać Twoje dane?

Przetwarzamy je dostarczać coraz lepsze materiały redakcyjne, dopasować ich tematykę do Twoich zainteresowań, tworzyć portale i serwisy internetowe, z których będziesz korzystać z przyjemnością, zapewniać większe bezpieczeństwo usług, udoskonalać nasze usługi i maksymalnie dopasować je do Twoich zainteresowań, pokazywać reklamy dopasowane do Twoich potrzeb. Szczegółowe informacje dotyczące celów przetwarzania Twoich danych znajdują się w polityce prywatności.

Komu możemy przekazać dane?

Twoje dane możemy przekazywać podmiotom przetwarzającym je na nasze zlecenie oraz podmiotom uprawnionym do uzyskania danych na podstawie obowiązującego prawa – oczywiście tylko, gdy wystąpią z żądaniem w oparciu o stosowną podstawę prawną.

Jakie masz prawa w stosunku do Twoich danych?

Masz prawo żądania dostępu, sprostowania, usunięcia lub ograniczenia przetwarzania danych. Możesz wycofać zgodę na przetwarzanie, zgłosić sprzeciw oraz skorzystać z innych praw wymienionych szczegółowo w polityce prywatności.

Jakie są podstawy prawne przetwarzania Twoich danych?

Podstawą prawną przetwarzania Twoich danych w celu świadczenia usług jest niezbędność do wykonania umów o ich świadczenie (tymi umowami są zazwyczaj regulaminy). Podstawą prawną przetwarzania danych w celu pomiarów statystycznych i marketingu własnego administratorów jest tzw. uzasadniony interes administratora. Przetwarzanie Twoich danych w celach marketingowych realizowanych przez Wirtualną Polskę na zlecenie Zaufanych Partnerów i bezpośrednio przez Zaufanych Partnerów będzie odbywać się na podstawie Twojej dobrowolnej zgody.