r   e   k   l   a   m   a
r   e   k   l   a   m   a

Lyrebird przemówi twoim głosem, wystarczy mu minuta słuchania

Strona główna AktualnościOPROGRAMOWANIE

Biometria bazująca na głosie użytkownika niebawem stanie się bezwartościowa, podobnie jak i zawód aktora głosowego. Kanadyjski startup Lyrebird przedstawił publicznie przełomowy system syntezy i naśladownictwa mowy, znacznie wyprzedzający to, co wcześniej pokazało Adobe ze swoim projektem VoCo. Podczas gdy VoCo potrzebowało do odtworzenia modelu mowy 20 minut nagranych próbek, Lyrebirdowi wystarczy raptem minuta. Otwiera to drogę nie tylko do prostych ataków na biometryczne zabezpieczenia, ale też szybkiego tworzenia wiarygodnie brzmiących nagrań wypowiedzi dowolnej osoby. Jedno jest pewne – fake newsy będą jeszcze lepsze.

To wciąż przyszłość. Przedstawione próbki zsyntetyzowanych przez Lyrebird wypowiedzi wciąż brzmią… nieorganicznie, choć trzeba przyznać, że jedna z nich – emulacja głosu Donalda Trumpa – jest już całkiem wiarygodna, zbliżona do oryginału (nie wiemy, czy to świadczy bardziej o optymalizacji modelu Trumpa, czy też o samym prezydencie Stanów Zjednoczonych).

O ile jakość głosu wymaga poprawek, to pozostałe możliwości Lyrebirda są naprawdę spektakularne. Wykorzystywane do utrzymania sieci neuronowej klastry GPU potrzebują około minuty nagrania, by stworzyć unikatowy model głosu danej osoby. Możliwe jest też zaprojektowanie nowego głosu od podstaw. Dysponując zaś takim modelem mowy, można generować tysiące wypowiedzi na sekundę, kontrolując emocje, z jakimi zostały one wypowiedziane – póki co do wyboru mamy gniew, sympatię i stres.

r   e   k   l   a   m   a

To wszystko niebawem ma już być dostępne dla każdego. Lyrebird opracowuje interfejs programowania, poprzez który każda aplikacja czy usługa internetowa będzie mogła otrzymać dostęp do dowolnego głosu. Potem może to wszystko zostać zastosowane do czytania książek na głos, komunikowania się z użytkownikami, wspomagania mowy inwalidów, czy wreszcie do stworzenia mowy postaci w filmach animowanych czy grach.

Zachwyceni swoim osiągnięciem Kanadyjczycy przyznają, że Lyrebird oznacza też kłopoty. Na stronie internetowej projektu umieścili zresztą całą sekcję poświęconą „etyce” syntezy mowy. Tam przyznają, że technologia ta może podważyć wartość dowodów z nagrań, pozwolić na wprowadzanie w błąd dyplomatów, oszustwa czy przejmowanie tożsamości. Jednak to właśnie upowszechnienie tej technologii w jakiś sposób miałoby zabezpieczyć nas przed takimi zagrożeniami – ludzie mając świadomość, że głos może być dowolnie syntetyzowany, nie dadzą się łatwo zwieść.

Lyrebird przynosi jednak coś więcej, coś o czym najwyraźniej jego autorzy nie pomyśleli. Możliwość podważenia wiarygodności dowolnego nagrania audio jest wspaniałym prezentem dla polityków. Już nigdy nie będzie żadnej „afery taśmowej” – przedstawione publicznie nagrania poufnych rozmów będą mogły zostać ogłoszone fałszerstwem. Wystarczy, że polityk powie, że tego nie powiedział co usłyszeć można na nagraniu. Każdy zaś, kto twierdzi inaczej, zapewne brał udział w podrabianiu nagrań za pomocą tych wszystkich komputerów i aplikacji.

Wideo też niewiele zmieni. W zeszłym roku badacze ze Stanfordu pokazali możliwość przekształcenia źródłowego nagrania tak, by ujęte na nim postaci zmieniły całą swoją mimikę, zgodnie z tym, co pokaże aktor na nagraniu modyfikującym, a wszystko to w czasie rzeczywistym. Połączmy to z syntezą mowy Lyrebirda, a każdy będzie mógł przyznać się na nagraniu, że to on stał za atakiem na World Trade Center.

© dobreprogramy
r   e   k   l   a   m   a
r   e   k   l   a   m   a

Komentarze

r   e   k   l   a   m   a
r   e   k   l   a   m   a
Czy wiesz, że używamy cookies (ciasteczek)? Dowiedz się więcej o celu ich używania i zmianach ustawień.
Korzystając ze strony i asystenta pobierania wyrażasz zgodę na używanie cookies, zgodnie z aktualnymi ustawieniami przeglądarki.