Fotoszopowanie dla fake-świata: sieci neuronowe skończą historię?

Walka internetowych tuzów z tzw. fakenewsami przybiera na sile, wykorzystywane są w tym celu zarównonarzędzia algorytmiczne jak i zespoły mechanicznych Turków, tj.ludzkich moderatorów. Kilka dni temu mechanizm sprawdzania*faktów ruszył we wszystkichwersjach językowych wyszukiwarki Google – w wynikach wyszukiwaniaprzy niektórych artykułach pojawia się już informacja owiarygodności artykułu.A gdy jedni pracują nad technologiami, które miałyby zapewnićjednomyślność co do tego, jak jest,inni robią coś znacznie ciekawszego. Na naszych oczach powstajątechnologie, za sprawą których uwiarygodnienie *wydarzeńmoże stać się praktycznie niemożliwe.

Adam Golański

9 kwietnia 2017, 21:42

Jak uwiarygodnić opowieść?Uważa się, że dobrym dowodem są zdjęcia i nagrania wideo,ewentualnie zeznania świadków.Dobre zdjęcie w oczach opinii publicznej może być nawet casusbelli, powodem do wojny, jak to dopiero co mogliśmy zobaczyć poamerykańskim ataku rakietowym na syryjską bazę lotnicząal-Sharyat. Zdjęcie, albo się to nie wydarzyło,jak mówi internetowa doktryna. Jest zdjęcie, można wystrzelić 59Tomahawków Block IV i patrzeć, jak cena akcji Raytheona rośnie.

Z drugiej strony rośniepodejrzliwość ludzi wobec zdjęć. Słowo „fotoszopować”trafiłonawet do Obserwatorium Językowego Uniwersytetu Warszawskiego,definiowane jako poprawianie lub zmienianie fotografii lubfilmu w programie graficznym. Z„fotoszopowaniem” walczy się niekiedy niemal jak z fake newsami– ot np. we Francji i Norwegii narzucono regulacje zakazującepokazywać zbyt dobrze (za sprawą fotoszopowania) wyglądającemodelki, wg ustawodawców ranią one bowiem kobiety, tworzącnierealistyczne, idealne wizerunki.

Fotoszopowanie miałoby więc,przynajmniej na razie, tworzyć świat idealny.Jesteśmy więc przekonani, że jesteśmy w stanie odróżnić światrealny, z jego niedoskonałościami, od obrazu czy nagraniawyidealizowanego. I faktycznie, coś w tym jest, łatwiej stworzyćobraz doskonałej, gładkiej skóry bez skaz, niż obraz skórynieidealnej, porośniętej włosami, z pryszczami. Łatwiej, ale czyjest to niemożliwe? Co zrobimy, gdy możliwości narzędziinformatycznych będą wystarczające, by fotoszopować realnie,niedoskonale, a nawet wytwarzać zupełnie nowe, realistyczne obrazy?

Kilka dni temu w amerykańskichmediach IT przypomniano o osiągnięciu badaczy z Adobe Systems iCornell University. Wykorzystując sieci neuronowe i głębokieuczenie się, stworzyli oni narzędzie o nazwie Deep Photo StyleTransfer, o którym pisała Xyrcon jeszczew marcu. Przypomnę pokrótce – narzędzie to jest w stanieprzekształcać obrazy wejściowe, do obrazu wynikowego wprowadzająccharakterystyki obrazów referencyjnych. To znacznie więcej, niżtylko podmiana tła. Technika semantycznej segmentacji krawędzi,tekstur, treści i stylów pozwala tworzyć realistycznie wyglądająceobrazy świata, którego nigdy nie było, bo nigdy nie było tegodomu przy tej ulicy, nigdy nie sfotografowano tego auta nocą na tledrzew. Obraz jednak jest. Fake-news?

Nie jest to odosobnionyprzypadek. Wiele już możemy zrobić z ludzkimi twarzami. Rosyjskaaplikacja FaceAppbudzi zainteresowanie nie mniejsze niż słynna Prisma. I tuwykorzystano sieci neuronowe, które obraz na wejściu potrafiąrealistycznie przekształcić, tak by Władimir o poważnej miniestał się Władimirem z szerokim uśmiechem, a młody mężczyznaprzemienił w starą kobietę… jednak o niepokojąco podobnychrysach twarzy. Może to zdjęcie matki? Nie, to tylko algorytm.

Te starania w tworzeniu zdjęćnieprawdziwych mogą tylkowzmocnić rozwiązania, których celem jest stworzenie nieprawdziwejmowy. W zeszłym roku Adobe nakonferencji MAX pochwaliło się oprogramowaniem rozwijanym pod nazwąkodową VoCo,które po pozyskaniu 20-minutowej próbki mowy, są w staniewygenerować całe słowa, a nawet zdania, wypowiedziane tym samymgłosem co na nagraniu wejściowym. Dzięki VoCo każdy będzie mógłprzyznać się do stawianych mu zarzutów pożerania niemowląt. Żenigdy nic takiego nie powiedział? Nie szkodzi, mamy na taśmie, żepowiedział. Z charakterystyczną chrypką, drżącym głosem.

Nie dzisiaj, nie jutro, aleprzypomnijcie sobie, gdzie sieci neuronowe były 10 lat temu, w roku2007, przypomnijcie sobie te nowe google’owe czipyTPU do maszynowego uczenia – i pomyślcie sobie, jak bardzokażdemu poważnemu graczowi na arenie międzynarodowej muszą byćpotrzebne narzędzia, dzięki którym fotoszopowanieprzyniesie realistyczne wyniki.Czy zbyt śmiała jest myśl, że w 2027 roku na wiarygodnychzdjęciach będzie można przedstawić każdy pomysł ich…projektanta?

Historycy przyszłych stulecibędą mieli niełatwe zadanie, by ustalić, jak to było w naszymcoraz ciekawszym wieku XXI. I jak wyglądali ludzie w tych czasach, skoro jedyne co się zachowało to selfie przetworzone za pomocą Adobe Sensei.

Adam Golański