Potrzebne trzy sekundy. Potem stracisz głos

Trzy sekundy, po których stracisz głos

Źródło zdjęć: © Unsplash.com

10.01.2023 13:53

Zalogowani mogą więcej

Możesz zapisać ten artykuł na później. Znajdziesz go potem na swoim koncie użytkownika

Sztuczna inteligencja może osiągać niewiarygodne wyniki. Microsoft zaprezentował oprogramowanie VALL-E, które potrzebuje tylko trzech sekund, aby móc posługiwać się twoim głosem.

Sztuczna inteligencja w ostatnim czasie zawojowała internet. Udostępniane w sieci oprogramowanie pokazuje, jak duże są możliwości jej wykorzystania. SI potrafi tworzyć obrazy, które zachwycają, pisać poprawne gramatycznie teksty, a także, jak się okazuje, bardzo dokładnie kopiować ludzki głos.

VALL-E to sztuczna inteligencja, która potrafi symulować głos, bazując na jego trzysekundowej próbce. Wystarczy krótki urywek wypowiedzi, by oprogramowanie nauczyło się naśladować głos jej autora, uwzględniając przy tym intonację, czy emocje, które towarzyszyły osobie mówiącej. Możliwości VALL-E imponują, ale mogą nieść za sobą też poważne zagrożenie.

Dalsza część artykułu pod materiałem wideo

Z tego rodzaju sztucznej inteligencji z pewnością z chęcią skorzystałoby wiele osób. Łatwo sobie wyobrazić wykorzystanie jej w postaci lektora, który odczytuje instrukcję obsługi na życzenie klienta, czy przekazuje na bieżąco informacje na temat opóźnień pociągów na danej stacji. Z możliwości skorzystania z tego rodzaju programu z pewnością ucieszyliby się twórcy kreatywni.

Swego czasu w polskim internecie dostępne były programy, które potrafiły generować wypowiedzi na podstawie głosów bohaterów popularnych gier komputerowych. Było to narzędzie, które mogło mocno rozwijać fandom - twórcy fanowskich modyfikacji mogli przy poniesieni znikomych kosztów stworzyć pełne udźwiękowienie swoich produkcji. Nie brakowało też prób wykorzystywania możliwości oprogramowania do tworzenia humorystycznych filmów.

Zobacz także

Chatbot jak człowiek. Firma zarobi krocie

Tego rodzaju oprogramowanie wymagało jednak wgrania sporej liczby linii dialogowych, by nauczyć się odpowiednio interpretować dźwięki. W przypadku VALL-E sytuacja jest o wiele prostsza. Na stronie projektu można sprawdzić, jak dobrze program radzi sobie z generowaniem dźwięku na podstawie krótkiego urywku wypowiedzi. Choć dźwięk nie brzmi idealnie, jest bliski naturalnemu odwzorowaniu ludzkiej mowy.

Twórcy osiągnęli ten wynik przez długi trening sztucznej inteligencji. Jak czytamy w opisie oprogramowania - trenowano je na podstawie 60 tys. godziny angielskich wypowiedzi, co zdaniem autorów tego narzędzia oznacza setki razy większą bazę, niż w przypadku konkurencyjnych rozwiązań.

Zagrożenia związane ze sztuczną inteligencją

Trzeba jednak przyznać, że każdy medal ma dwie strony. O ile po jednej mamy możliwość szybkiego zastępowania lektorów w wielu sytuacjach, o tyle po drugiej istnieje obawa o nasze bezpieczeństwo. Wśród udostępnionych próbek można trafić na te, które pochodzą z rozmów telefonicznych. Oprogramowanie świetnie radzi sobie z symulacją głosu przechwyconego podczas rozmowy przez telefon.

Łatwo sobie wyobrazić, że osoby o nieuczciwych zamiarach będą chcieli wykorzystać tego rodzaju oprogramowanie i, przechwytując głos swoich potencjalnych ofiar, wykorzystywać go do nieetycznych praktyk. Oszustwa "na wnuczka" i pokrewne mogą być jeszcze łatwiejsze, jeśli oszust będzie mógł posługiwać się głosem rzeczonego wnuka.

Zobacz także

ChatGPT podbija internet. Sprawdziliśmy, jak działa. Błędów nie brakuje

Możliwe, że tego typu oprogramowanie zostanie też wykorzystane do tzw. robocalls. W Polsce praktyki te znamy przede wszystkim z telefonów dotyczących instalacji fotowoltaicznych. Obecnie rozmówca może usłyszeć podczas takiej rozmowy jedną z wielu nagranych wcześniej kwestii, które rzecz jasna brzmią naturalnie, ale nie zawsze pasują do kontekstu całej rozmowy.

Wykorzystanie sztucznej inteligencji może zmienić sytuację. Być może w przypadku prostego oprogramowania dałoby się usłyszeć nieidealne akcentowanie, czy dość "płaskie" brzmienie samej wypowiedzi. Jednak możliwość dopasowywania jej dokładnie do trwającej rozmowy, wraz z wykorzystywaniem imienia rozmówcy, może dodać wiarygodności dzwoniącym.

Sztuczna inteligencja to potężne narzędzie. Jak każde może zostać wykorzystana w dobrych lub złych intencjach. Jej powszechne wykorzystanie to kolejny krok w kierunku rozwoju społeczeństwa. Ważne jest, aby uświadomić sobie, jakie zagrożenia za sobą niesie i co należy robić, by uniknąć kłopotów z nią związanych, jednocześnie nie demonizując jej.

Karol Kołtowski, dziennikarz dobreprogramy.pl

Programy

Zobacz więcej