Mozilla właśnie oddała najlepsze techniki rozpoznawania mowy w ręce programistów

Mozilla właśnie oddała najlepsze techniki rozpoznawania mowy w ręce programistów30.11.2017 23:06

Alexa, Cortana, Siri, ten google’owy asystent, który nie mażadnego dobrego imienia – patrząc na to wszystko, co stało sięprzez ostatnie lata w dziedzinie maszynowego przetwarzania ludzkiejmowy, można by było pomyśleć, że żyjemy już w czasach, wktórych z komputerami rozmawia się jak w Star Treku. A popomyśleniu sięgnąć po klawiaturę i myszkę, by pisać, klikać ipatrzeć na efekty. Choć trzeba przyznać, że rewolucja wdziedzinie interfejsu głosowego może być tuż za rogiem,szczególnie teraz, gdy Mozilla zaprezentowała otwartą bibliotekępróbek ludzkiej mowy i towarzyszący jej silnik transkrypcyjny.

Siri: Star Trek Computer

Latem tego roku producent Firefoksa zwrócił się do internetowejspołeczności z prośbą o nagrywanie próbek mowy (w językuangielskim), jak również o przeglądanie maszynowej transkrypcjipróbek wypowiedzi innych. Do projektu o nazwie Common Voiceprzystąpiło niemal 20 tysięcy osób, którzy nagrali ponad 400tysięcy próbek – łącznie około 500 godzin nagrań, 12gigabajtów danych.

Ten ogromny zbiór został teraz udostępniony za darmo, na wolnejlicencji dla każdego zainteresowanego. Pobrać go możecie ze stronyvoice.mozilla.org/data,gdzie znajdziecie jeszcze linki do innych wolnych zbiorów nagrańludzkiej mowy. Jest to wartościowy dar dla wszystkich niezależnychprogramistów i startupów, gdyż porównywalne komercyjne zbiorysprzedawane są za dziesiątki tysięcy dolarów.

Mając taki zbiór można startować z pracą nad interfejsamigłosowymi – póki co po angielsku. Na angielskim oczywiście światsię nie kończy, Mozilla zdaje sobie z tego sprawę. Sean White zMozilli zapewnia, że już w pierwszej połowie przyszłego rokurozpocznie się praca nad rozszerzeniem Common Voice o inne języki.To, jak oprogramowanie w przyszłości będzie sobie radziło zprzetwarzaniem polskiej mowy zależy więc też od Was, drodzyCzytelnicy.

Drugim elementem strategii Mozilli w dziedzinie rozpoznawania mowyjest silnik transkrypcyjny Deep Speech. Inspirowany jest on pracaminaukowców z Baidu iwykorzystuje mechanizmy maszynowego uczenia oferowane przez GoogleTensor Flow, aby jak to określono, ułatwić implementację.Tak czy inaczej mamy do czynienia z opensource’ową, głębokąrekurencyjną siecią neuronową, która może być trenowana znadzorem od podstaw, bez żadnych dodatkowych „źródełinteligencji” – wyjaśnia Rueben Morais, jeden z twórców DeepSpeech.

Wytrenowana sieć neuronowa osiąga znakomite wyniki. Na zbiorzetestowym LibriSpeech uzyskała odsetek błędów na poziomie 6,5%,znacznie lepiej niż zakładano – celowano w osiągnięcie odsetkabłędów na poziomie nie przekraczającym 10%. Zainteresowanychszczegółami architektury zapraszamy na blogaMozilli, tu tylko powiemy, że trening i zbudowanie dobregomodelu mowy dla silnika, który ma około 120 milionów parametrówzajęło około tygodnia, przy wykorzystaniu klastra dwóch serwerówz ośmioma kartami Nvidia Titan XP każdy.

Silnik Deep Speech z takim modelem znaleźć można naGitHubie, dostępne są zarówno prekompilowane binarki jaki ikod źródłowy, klient w Pythonie i powiązania dla node.js i Rusta.Jak na pierwsze wydanie, wydajność jest bardzo dobra: MacBook Prowykorzystujący akcelerację GPU jest w stanie przeprowadzićtranskrypcję 1 sekundy mowy w 0,3 sekundy, bez akceleracji GPUzajmie to około 1,4 sekundy. Docelowo Deep Speech ma zostać takzoptymalizowany, by zapewnić transkrypcję mowy w czasierzeczywistym nawet na urządzeniach mobilnych czy jednopłytkowychkomputerkach.

Szanowna Użytkowniczko! Szanowny Użytkowniku!
×
Aby dalej móc dostarczać coraz lepsze materiały redakcyjne i udostępniać coraz lepsze usługi, potrzebujemy zgody na dopasowanie treści marketingowych do Twojego zachowania. Twoje dane są u nas bezpieczne, a zgodę możesz wycofać w każdej chwili na podstronie polityka prywatności.

Kliknij "PRZECHODZĘ DO SERWISU" lub na symbol "X" w górnym rogu tej planszy, jeżeli zgadzasz się na przetwarzanie przez Wirtualną Polskę i naszych Zaufanych Partnerów Twoich danych osobowych, zbieranych w ramach korzystania przez Ciebie z usług, portali i serwisów internetowych Wirtualnej Polski (w tym danych zapisywanych w plikach cookies) w celach marketingowych realizowanych na zlecenie naszych Zaufanych Partnerów. Jeśli nie zgadzasz się na przetwarzanie Twoich danych osobowych skorzystaj z ustawień w polityce prywatności. Zgoda jest dobrowolna i możesz ją w dowolnym momencie wycofać zmieniając ustawienia w polityce prywatności (w której znajdziesz odpowiedzi na wszystkie pytania związane z przetwarzaniem Twoich danych osobowych).

Od 25 maja 2018 roku obowiązuje Rozporządzenie Parlamentu Europejskiego i Rady (UE) 2016/679 (określane jako "RODO"). W związku z tym chcielibyśmy poinformować o przetwarzaniu Twoich danych oraz zasadach, na jakich odbywa się to po dniu 25 maja 2018 roku.

Kto będzie administratorem Twoich danych?

Administratorami Twoich danych będzie Wirtualna Polska Media Spółka Akcyjna z siedzibą w Warszawie, oraz pozostałe spółki z grupy Wirtualna Polska, jak również nasi Zaufani Partnerzy, z którymi stale współpracujemy. Szczegółowe informacje dotyczące administratorów znajdują się w polityce prywatności.

O jakich danych mówimy?

Chodzi o dane osobowe, które są zbierane w ramach korzystania przez Ciebie z naszych usług, portali i serwisów internetowych udostępnianych przez Wirtualną Polskę, w tym zapisywanych w plikach cookies, które są instalowane na naszych stronach przez Wirtualną Polskę oraz naszych Zaufanych Partnerów.

Dlaczego chcemy przetwarzać Twoje dane?

Przetwarzamy je dostarczać coraz lepsze materiały redakcyjne, dopasować ich tematykę do Twoich zainteresowań, tworzyć portale i serwisy internetowe, z których będziesz korzystać z przyjemnością, zapewniać większe bezpieczeństwo usług, udoskonalać nasze usługi i maksymalnie dopasować je do Twoich zainteresowań, pokazywać reklamy dopasowane do Twoich potrzeb. Szczegółowe informacje dotyczące celów przetwarzania Twoich danych znajdują się w polityce prywatności.

Komu możemy przekazać dane?

Twoje dane możemy przekazywać podmiotom przetwarzającym je na nasze zlecenie oraz podmiotom uprawnionym do uzyskania danych na podstawie obowiązującego prawa – oczywiście tylko, gdy wystąpią z żądaniem w oparciu o stosowną podstawę prawną.

Jakie masz prawa w stosunku do Twoich danych?

Masz prawo żądania dostępu, sprostowania, usunięcia lub ograniczenia przetwarzania danych. Możesz wycofać zgodę na przetwarzanie, zgłosić sprzeciw oraz skorzystać z innych praw wymienionych szczegółowo w polityce prywatności.

Jakie są podstawy prawne przetwarzania Twoich danych?

Podstawą prawną przetwarzania Twoich danych w celu świadczenia usług jest niezbędność do wykonania umów o ich świadczenie (tymi umowami są zazwyczaj regulaminy). Podstawą prawną przetwarzania danych w celu pomiarów statystycznych i marketingu własnego administratorów jest tzw. uzasadniony interes administratora. Przetwarzanie Twoich danych w celach marketingowych realizowanych przez Wirtualną Polskę na zlecenie Zaufanych Partnerów i bezpośrednio przez Zaufanych Partnerów będzie odbywać się na podstawie Twojej dobrowolnej zgody.