Microsoft: nasze algorytmy rozpoznające mowę są już tak skuteczne, jak człowiek

Mijający rok pokazał dobitnie, że największe korporacje pracują intensywnie nad nowymi metodami wprowadzania danych i interakcji z urządzeniami. I to niezależnie od zainteresowania takimi nowościami wśród samych użytkowników. Dobitnie wypowiedział się na ten temat Dave Chaplin z Microsoftu, który bez ceregieli stwierdził, że klawiatury QWERTY to przeżytek należący do XIX wieku, który trzeba zastąpić. Oczywiście mową.

Obraz

A w tej kwestii Microsoft pochwalił się właśnie nie lada osiągnięciem. Na oficjalnym blogu korporacji ukazał się komunikat obwieszczający historyczny krok milowy w rozwoju algorytmów rozpoznających mowę i dokonujących jej transkrypcji. Z utrzymanego w patetycznym tonie wpisu można dowiedzieć się, że w laboratoriach Microsoftu opracowano program, który transkrybuje z precyzją równą człowiekowi.

Same deklaracje chyba nikogo nie przekonają, zwłaszcza że Microsoft już w pierwszym akapicie dopuszcza się nieścisłości. Z jednej strony dokonano przełomu w algorytmach transkrybujących, z drugiej strony mowa o rozumieniu tak dobrze jak człowiek. Nikogo chyba nie trzeba przekonywać, że rozumienie tekstu i umiejętność jego spisywania to dwie różne kompetencje.

Ba, można byłoby się nawet spierać z twierdzeniem, że znajomość semantyki jakkolwiek wpływa na jakość transkrybowanego tekstu wyjściowego. Zainteresowanych problematyką zachęcamy do zapoznania się z eksperymentem chińskiego pokoju nakreślonym przez amerykańskiego filozofa Johna Searle'a już w roku 1980.

Bardziej wyważony (i rzetelny) jest już artykuł przedstawiający wyniki badań nowych algorytmów oraz wypowiedzi samych naukowców. Do zbudowania sieci neuronowej wyspecjalizowanej, dzięki głębokiemu uczeniu, w transkrypcji posłużyła platforma Computational Network Toolkit, wykorzystywana także w tłumaczeniach maszynowych czy rozpoznawaniu obiektów na zdjęciach. Jej kod został udostępniony przez Microsoft w repozytorium GitHub.

W rzeczywistości osiągnięcie Microsoftu, jak można było przypuszczać, niewiele ma wspólnego z rozumieniem, a przynajmniej nie przekłada się to bezpośrednio na rezultaty. A te, trzeba przyznać, są imponujące. Do skuteczności transkrypcji wykorzystuje się współczynnik WER (Word Error Rate), który jest równy ilorazowi sumy substytucji, delecji i insercji oraz liczby słów w wypowiedzeniu. Najnowsze algorytmy Microsoftu osiągnęły 5,9 WER, tyle samo co biorący udział w badaniach ludzie.

Obraz

5,9 to najniższy w historii odsetek błędu WER odnotowany w przypadku transkrypcji maszynowej.

Dość zabawnie wypada w tym kontekście artykuł Dlaczego Word Error Rate nie jest dobrą miarą dla algorytmów rozpoznający mowę..., który opublikowany został 1 maja 2011 roku przez... Microsoft! Mowa w nim, że WER mierzące adekwatność doboru słów pomija w dużej części kontekst, co na dłuższą metę ma obniżać precyzję maszynowej transkrypcji.

Jak widać jeden parametr (a nie są to osiągnięcia nauki ostatnich lat, prężnie rozwijającego się w zasadzie od przełomu drugiej i trzeciej dekady XX wieku maszynowego tłumaczenia nie sposób określić mianem nowej technologii) może w ciągu zaledwie pięciu lat decydować o jakości lub bylejakości algorytmu. Pomijając już niuansie, trzeba Microsoftowi przyznać, że dysponuje w tej chwili najbardziej zaawansowanym cyberskrybą. Czekamy na implementacje.

Źródło artykułu: www.dobreprogramy.pl
Wybrane dla Ciebie
Nowości w mObywatelu. Dodano trzy funkcje
Nowości w mObywatelu. Dodano trzy funkcje
Ważny komunikat Alior Banku. Dotyczy wszystkich klientów
Ważny komunikat Alior Banku. Dotyczy wszystkich klientów
Uznański-Wiśniewski: To AI wybiera, co warto przesłać z orbity
Uznański-Wiśniewski: To AI wybiera, co warto przesłać z orbity
Czarna lista w telefonie. Jak zablokować niechciane połączenia?
Czarna lista w telefonie. Jak zablokować niechciane połączenia?
Nowość w Zdjęciach Google. Wygodniejsza edycja fotografii
Nowość w Zdjęciach Google. Wygodniejsza edycja fotografii
Atak hakerski na Booking. Zdobyli dane klientów
Atak hakerski na Booking. Zdobyli dane klientów
Luka 0-day w Adobe Reader. Wystarczy spreparowany PDF
Luka 0-day w Adobe Reader. Wystarczy spreparowany PDF
Zaktualizuj Windowsa: wydano kwietniowe poprawki
Zaktualizuj Windowsa: wydano kwietniowe poprawki
Wyciek danych klientów polskich sklepów. 130 tys. pokrzywdzonych
Wyciek danych klientów polskich sklepów. 130 tys. pokrzywdzonych
mBank zmienia wymagania aplikacji. Niektórzy muszą wymienić telefon
mBank zmienia wymagania aplikacji. Niektórzy muszą wymienić telefon
Awaria w Pekao S.A. Problem z bankowością (aktualizacja)
Awaria w Pekao S.A. Problem z bankowością (aktualizacja)
Zakazy social mediów dla nastolatków. Eksperci widzą problem
Zakazy social mediów dla nastolatków. Eksperci widzą problem
ZATRZYMAJ SIĘ NA CHWILĘ… TE ARTYKUŁY WARTO PRZECZYTAĆ 👀