Mozilla właśnie oddała najlepsze techniki rozpoznawania mowy w ręce programistów

Alexa, Cortana, Siri, ten google’owy asystent, który nie mażadnego dobrego imienia – patrząc na to wszystko, co stało sięprzez ostatnie lata w dziedzinie maszynowego przetwarzania ludzkiejmowy, można by było pomyśleć, że żyjemy już w czasach, wktórych z komputerami rozmawia się jak w Star Treku. A popomyśleniu sięgnąć po klawiaturę i myszkę, by pisać, klikać ipatrzeć na efekty. Choć trzeba przyznać, że rewolucja wdziedzinie interfejsu głosowego może być tuż za rogiem,szczególnie teraz, gdy Mozilla zaprezentowała otwartą bibliotekępróbek ludzkiej mowy i towarzyszący jej silnik transkrypcyjny.

Obraz

Siri: Star Trek Computer

Latem tego roku producent Firefoksa zwrócił się do internetowejspołeczności z prośbą o nagrywanie próbek mowy (w językuangielskim), jak również o przeglądanie maszynowej transkrypcjipróbek wypowiedzi innych. Do projektu o nazwie Common Voiceprzystąpiło niemal 20 tysięcy osób, którzy nagrali ponad 400tysięcy próbek – łącznie około 500 godzin nagrań, 12gigabajtów danych.

Ten ogromny zbiór został teraz udostępniony za darmo, na wolnejlicencji dla każdego zainteresowanego. Pobrać go możecie ze stronyvoice.mozilla.org/data,gdzie znajdziecie jeszcze linki do innych wolnych zbiorów nagrańludzkiej mowy. Jest to wartościowy dar dla wszystkich niezależnychprogramistów i startupów, gdyż porównywalne komercyjne zbiorysprzedawane są za dziesiątki tysięcy dolarów.

Mając taki zbiór można startować z pracą nad interfejsamigłosowymi – póki co po angielsku. Na angielskim oczywiście światsię nie kończy, Mozilla zdaje sobie z tego sprawę. Sean White zMozilli zapewnia, że już w pierwszej połowie przyszłego rokurozpocznie się praca nad rozszerzeniem Common Voice o inne języki.To, jak oprogramowanie w przyszłości będzie sobie radziło zprzetwarzaniem polskiej mowy zależy więc też od Was, drodzyCzytelnicy.

Obraz

Drugim elementem strategii Mozilli w dziedzinie rozpoznawania mowyjest silnik transkrypcyjny Deep Speech. Inspirowany jest on pracaminaukowców z Baidu iwykorzystuje mechanizmy maszynowego uczenia oferowane przez GoogleTensor Flow, aby jak to określono, ułatwić implementację.Tak czy inaczej mamy do czynienia z opensource’ową, głębokąrekurencyjną siecią neuronową, która może być trenowana znadzorem od podstaw, bez żadnych dodatkowych „źródełinteligencji” – wyjaśnia Rueben Morais, jeden z twórców DeepSpeech.

Wytrenowana sieć neuronowa osiąga znakomite wyniki. Na zbiorzetestowym LibriSpeech uzyskała odsetek błędów na poziomie 6,5%,znacznie lepiej niż zakładano – celowano w osiągnięcie odsetkabłędów na poziomie nie przekraczającym 10%. Zainteresowanychszczegółami architektury zapraszamy na blogaMozilli, tu tylko powiemy, że trening i zbudowanie dobregomodelu mowy dla silnika, który ma około 120 milionów parametrówzajęło około tygodnia, przy wykorzystaniu klastra dwóch serwerówz ośmioma kartami Nvidia Titan XP każdy.

Silnik Deep Speech z takim modelem znaleźć można naGitHubie, dostępne są zarówno prekompilowane binarki jaki ikod źródłowy, klient w Pythonie i powiązania dla node.js i Rusta.Jak na pierwsze wydanie, wydajność jest bardzo dobra: MacBook Prowykorzystujący akcelerację GPU jest w stanie przeprowadzićtranskrypcję 1 sekundy mowy w 0,3 sekundy, bez akceleracji GPUzajmie to około 1,4 sekundy. Docelowo Deep Speech ma zostać takzoptymalizowany, by zapewnić transkrypcję mowy w czasierzeczywistym nawet na urządzeniach mobilnych czy jednopłytkowychkomputerkach.

Źródło artykułu: www.dobreprogramy.pl
Wybrane dla Ciebie
Możesz stracić fanpage. Wyjątkowo autentyczny atak
Możesz stracić fanpage. Wyjątkowo autentyczny atak
Fałszywy SMS. Oszuści podszywają się pod ZUS
Fałszywy SMS. Oszuści podszywają się pod ZUS
Żabka stworzy kartę płatniczą. Wybrała dużego partnera
Żabka stworzy kartę płatniczą. Wybrała dużego partnera
PKO Bank Polski wydał komunikat. Uważaj, kto dzwoni
PKO Bank Polski wydał komunikat. Uważaj, kto dzwoni
Nowości w mObywatelu. Dodano trzy funkcje
Nowości w mObywatelu. Dodano trzy funkcje
Ważny komunikat Alior Banku. Dotyczy wszystkich klientów
Ważny komunikat Alior Banku. Dotyczy wszystkich klientów
Uznański-Wiśniewski: To AI wybiera, co warto przesłać z orbity
Uznański-Wiśniewski: To AI wybiera, co warto przesłać z orbity
Czarna lista w telefonie. Jak zablokować niechciane połączenia?
Czarna lista w telefonie. Jak zablokować niechciane połączenia?
Nowość w Zdjęciach Google. Wygodniejsza edycja fotografii
Nowość w Zdjęciach Google. Wygodniejsza edycja fotografii
Atak hakerski na Booking. Zdobyli dane klientów
Atak hakerski na Booking. Zdobyli dane klientów
Luka 0-day w Adobe Reader. Wystarczy spreparowany PDF
Luka 0-day w Adobe Reader. Wystarczy spreparowany PDF
Zaktualizuj Windowsa: wydano kwietniowe poprawki
Zaktualizuj Windowsa: wydano kwietniowe poprawki
MOŻE JESZCZE JEDEN ARTYKUŁ? ZOBACZ CO POLECAMY 🌟