Lyrebird przemówi twoim głosem, wystarczy mu minuta słuchania

Biometria bazująca na głosie użytkownika niebawem stanie siębezwartościowa, podobnie jak i zawód aktora głosowego. Kanadyjskistartup Lyrebird przedstawił publicznie przełomowy system syntezy inaśladownictwa mowy, znacznie wyprzedzający to, co wcześniejpokazało Adobe ze swoim projektem VoCo. Podczas gdy VoCopotrzebowało do odtworzenia modelu mowy 20 minut nagranych próbek,Lyrebirdowi wystarczy raptem minuta. Otwiera to drogę nie tylko doprostych ataków na biometryczne zabezpieczenia, ale też szybkiegotworzenia wiarygodnie brzmiących nagrań wypowiedzi dowolnej osoby.Jedno jest pewne – fake newsy będą jeszcze lepsze.

Lyrebird (pl. lirogon), obraz pędzla Richarda Browne, źródło: Wikimedia

Adam Golański

25 kwietnia 2017, 14:10

To wciąż przyszłość. Przedstawione próbkizsyntetyzowanych przez Lyrebird wypowiedzi wciąż brzmią…nieorganicznie, choć trzeba przyznać, że jedna z nich – emulacjagłosu Donalda Trumpa – jest już całkiem wiarygodna, zbliżona dooryginału (nie wiemy, czy to świadczy bardziej o optymalizacjimodelu Trumpa, czy też o samym prezydencie Stanów Zjednoczonych).

O ile jakość głosu wymaga poprawek, to pozostałe możliwościLyrebirda są naprawdę spektakularne. Wykorzystywane do utrzymaniasieci neuronowej klastry GPU potrzebują około minuty nagrania, bystworzyć unikatowy model głosu danej osoby. Możliwe jest teżzaprojektowanie nowego głosu od podstaw. Dysponując zaś takimmodelem mowy, można generować tysiące wypowiedzi na sekundę,kontrolując emocje, z jakimi zostały one wypowiedziane – póki codo wyboru mamy gniew, sympatię i stres.

To wszystko niebawem ma już być dostępne dla każdego. Lyrebirdopracowuje interfejs programowania, poprzez który każda aplikacjaczy usługa internetowa będzie mogła otrzymać dostęp do dowolnegogłosu. Potem może to wszystko zostać zastosowane do czytaniaksiążek na głos, komunikowania się z użytkownikami, wspomaganiamowy inwalidów, czy wreszcie do stworzenia mowy postaci w filmachanimowanych czy grach.

Zachwyceni swoim osiągnięciem Kanadyjczycy przyznają, żeLyrebird oznacza też kłopoty. Na stronie internetowej projektuumieścili zresztą całąsekcję poświęconą „etyce” syntezy mowy. Tam przyznają,że technologia ta może podważyć wartość dowodów z nagrań,pozwolić na wprowadzanie w błąd dyplomatów, oszustwa czyprzejmowanie tożsamości. Jednak to właśnie upowszechnienie tejtechnologii w jakiś sposób miałoby zabezpieczyć nas przed takimizagrożeniami – ludzie mając świadomość, że głos może byćdowolnie syntetyzowany, nie dadzą się łatwo zwieść.

Lyrebird przynosi jednak coś więcej, coś o czym najwyraźniejjego autorzy nie pomyśleli. Możliwość podważenia wiarygodnościdowolnego nagrania audio jest wspaniałym prezentem dla polityków.Już nigdy nie będzie żadnej „afery taśmowej” –przedstawione publicznie nagrania poufnych rozmów będą mogłyzostać ogłoszone fałszerstwem. Wystarczy, że polityk powie, żetego nie powiedział co usłyszeć można na nagraniu. Każdy zaś,kto twierdzi inaczej, zapewne brał udział w podrabianiu nagrań zapomocą tych wszystkich komputerów i aplikacji.

Wideo też niewiele zmieni. W zeszłym roku badacze ze Stanfordupokazali możliwość przekształcenia źródłowegonagrania tak, by ujęte na nim postaci zmieniły całą swojąmimikę, zgodnie z tym, co pokaże aktor na nagraniu modyfikującym,a wszystko to w czasie rzeczywistym. Połączmy to z syntezą mowyLyrebirda, a każdy będzie mógł przyznać się na nagraniu, że toon stał za atakiem na World Trade Center.

Adam Golański