reklama

Mozilla właśnie oddała najlepsze techniki rozpoznawania mowy w ręce programistów

Strona główna Aktualności

O autorze

Hodowca maszyn wirtualnych i psów, poza tym stary linuksiarz, bonvivant i śmieszek. W 2012 roku napisał na DP o algorytmie haszowania Keccak i wciąż pamięta, jak on działa.

Alexa, Cortana, Siri, ten google’owy asystent, który nie ma żadnego dobrego imienia – patrząc na to wszystko, co stało się przez ostatnie lata w dziedzinie maszynowego przetwarzania ludzkiej mowy, można by było pomyśleć, że żyjemy już w czasach, w których z komputerami rozmawia się jak w Star Treku. A po pomyśleniu sięgnąć po klawiaturę i myszkę, by pisać, klikać i patrzeć na efekty. Choć trzeba przyznać, że rewolucja w dziedzinie interfejsu głosowego może być tuż za rogiem, szczególnie teraz, gdy Mozilla zaprezentowała otwartą bibliotekę próbek ludzkiej mowy i towarzyszący jej silnik transkrypcyjny.

Latem tego roku producent Firefoksa zwrócił się do internetowej społeczności z prośbą o nagrywanie próbek mowy (w języku angielskim), jak również o przeglądanie maszynowej transkrypcji próbek wypowiedzi innych. Do projektu o nazwie Common Voice przystąpiło niemal 20 tysięcy osób, którzy nagrali ponad 400 tysięcy próbek – łącznie około 500 godzin nagrań, 12 gigabajtów danych.

Ten ogromny zbiór został teraz udostępniony za darmo, na wolnej licencji dla każdego zainteresowanego. Pobrać go możecie ze strony voice.mozilla.org/data, gdzie znajdziecie jeszcze linki do innych wolnych zbiorów nagrań ludzkiej mowy. Jest to wartościowy dar dla wszystkich niezależnych programistów i startupów, gdyż porównywalne komercyjne zbiory sprzedawane są za dziesiątki tysięcy dolarów.

Mając taki zbiór można startować z pracą nad interfejsami głosowymi – póki co po angielsku. Na angielskim oczywiście świat się nie kończy, Mozilla zdaje sobie z tego sprawę. Sean White z Mozilli zapewnia, że już w pierwszej połowie przyszłego roku rozpocznie się praca nad rozszerzeniem Common Voice o inne języki. To, jak oprogramowanie w przyszłości będzie sobie radziło z przetwarzaniem polskiej mowy zależy więc też od Was, drodzy Czytelnicy.

Drugim elementem strategii Mozilli w dziedzinie rozpoznawania mowy jest silnik transkrypcyjny Deep Speech. Inspirowany jest on pracami naukowców z Baidu i wykorzystuje mechanizmy maszynowego uczenia oferowane przez Google Tensor Flow, aby jak to określono, ułatwić implementację. Tak czy inaczej mamy do czynienia z opensource’ową, głęboką rekurencyjną siecią neuronową, która może być trenowana z nadzorem od podstaw, bez żadnych dodatkowych „źródeł inteligencji” – wyjaśnia Rueben Morais, jeden z twórców Deep Speech.

Wytrenowana sieć neuronowa osiąga znakomite wyniki. Na zbiorze testowym LibriSpeech uzyskała odsetek błędów na poziomie 6,5%, znacznie lepiej niż zakładano – celowano w osiągnięcie odsetka błędów na poziomie nie przekraczającym 10%. Zainteresowanych szczegółami architektury zapraszamy na bloga Mozilli, tu tylko powiemy, że trening i zbudowanie dobrego modelu mowy dla silnika, który ma około 120 milionów parametrów zajęło około tygodnia, przy wykorzystaniu klastra dwóch serwerów z ośmioma kartami Nvidia Titan XP każdy.

Silnik Deep Speech z takim modelem znaleźć można na GitHubie, dostępne są zarówno prekompilowane binarki jaki i kod źródłowy, klient w Pythonie i powiązania dla node.js i Rusta. Jak na pierwsze wydanie, wydajność jest bardzo dobra: MacBook Pro wykorzystujący akcelerację GPU jest w stanie przeprowadzić transkrypcję 1 sekundy mowy w 0,3 sekundy, bez akceleracji GPU zajmie to około 1,4 sekundy. Docelowo Deep Speech ma zostać tak zoptymalizowany, by zapewnić transkrypcję mowy w czasie rzeczywistym nawet na urządzeniach mobilnych czy jednopłytkowych komputerkach.

© dobreprogramy
reklama

Komentarze

reklama