@AndrzejGJaką przyszłość ma rozpoznawanie mowy przez komputer?

Jaką przyszłość ma rozpoznawanie mowy przez komputer?

21.07.2010 17:58, aktualizacja: 21.07.2010 20:15

Czy jest choć jeden entuzjasta nowych technologii, który nigdy nie słyszał o rozpoznawaniu mowy lub przynajmniej wybieraniu głosowym w telefonach komórkowych? Pamiętam jak pierwszy raz zetknąłem się z tą funkcją w telefonie Ericsson R310s (nie mogłem się oprzeć, aby nie pokazać wam jak wyglądał :) oczywiście tym, którzy nie wiedzą). Telefon ten, to było coś więcej niż tylko narzędzie do rozmów, stosunkowo powolny (opóźnienia przy korzystaniu z funkcji menu), wielki i miał ekscentryczny wygląd - był niemal niezniszczalny, jedyny w swoim rodzaju telefon, który można było tylko uwielbiać lub nienawidzić i miał tą ciekawą funkcję etykiet głosowych, które wystarczyło nagrać a potem wypowiedzieć ponownie, aby telefon porównał wypowiedziane słowo "klucz" do nagranych wcześniej etykiet i łączył z odpowiednim kontaktem o ile rozpoznał prawidłowo wypowiedziane przeze mnie słowo. Właśnie. O ile rozpoznał prawidłowo, a najczęściej tego nie robił, bo: nie uwzględniał separacji dźwięków otoczenia oraz wymagał powiedzenia słowa "klucza" z podobną lub identyczną intonacją a więc z miejsca odpadały takie sytuacje, w których ta funkcja tak na prawdę mogła się przydać czyli np. jazda na rowerze czy podróż zatłoczonym autobusem lub w innej sytuacji, w której nie ma możliwości wygodnego wyciągnięcia telefonu z kieszeni i wybrania numeru ręcznie. We współczesnych aparatach funkcja ta działa lepiej lecz nadal daleko poniżej oczekiwań lub zanikła zupełnie bo użytkownicy bardzo rzadko z niej korzystają o ile w ogóle o jej istnieniu wiedzieli.

Ostatnie lata, to ogromny postęp technologii w rozpoznawaniu mowy, jednak wciąż jedynie na poziomie, który może najwyżej wspomagać pracę, niż zmienić jej charakter (np. dyktowanie zamiast pisania). Szczerze - nawet jeżeli technologia rozpoznawania mowy będzie w stanie idealnie rozpoznawać to co mówimy, to nie znaczy, że zawsze to będzie dobrze. Np. jeśli mechanizm nie będzie posiadał własnej inteligencji, to będzie notował wszelkie niezamierzone pauzy i przecinki, a poprawianie tego zajmie więcej czasu niż by się zaoszczędziło na pisaniu. Potem trzeba by było jeszcze raz taki podyktowany dokument sprawdzić, bo pół biedy, jeśli to zwykła lista zakupów, ale jeśli by to było jakieś ważne oświadczenie, coś pod czym się podpisujemy (biometrycznie i elektronicznie oczywiście;), to jeśli sami nie napiszemy czegoś, to pewności nigdy nie ma a podczas pisania własnoręcznego ma się pewną kontrolę nad tekstem, łatwiej się go formatuje "w locie". Muszę wspomnieć jeszcze, że jestem "wzrokowcem" i jakoś nie jestem przekonany do dyktowania - pisząc lepiej panuję nad tekstem, jego składnią i wątkiem, nawet gdy mówiony tekst pojawia się mi przed oczami - na ekranie. Pewnie reszta wzrokowców ma podobnie - pamiętają "obrazami". Oczywiście nie stoi to na przeszkodzie, by "słuchowcy" mieli łatwiej :)

Mało kto pewnie wie, że wielkie korporacje medialne już wykorzystują oprogramowanie do rozpoznawania mowy aby śledzić programy informacyjne na całym świecie. Wyobrażacie sobie, że w poszukiwaniu jakiejś informacji możecie przeszukiwać nagrania różnych stacji telewizyjnych i radiowych pod kątem słów kluczowych wypowiedzianych w czasie programu? To technologia do niedawna uznawana za bajkową - SciFi w każdym calu, a tu nagle się okazuje, że firmy monitorujące media inwestują wielkie kwoty w takie właśnie mechanizmy. Poza tym nie tylko te firmy inwestują w tych rejonach IT. Google wprowadziło swoje aplikacje do rozpoznawania mowy na smartfony (o ile dość nieźle radziły sobie z amerykanami, to akcent anglików okazał się dla tej funkcjonalności nie do przeskoczenia) oraz wyszukiwanie słów wypowiedzianych w filmach zamieszczonych na youtube (labs). Microsoft również nie próżnuje i już od czasów windows xp systematycznie poprawia swoje mechanizmy rozpoznawania mowy naturalnej w systemie operacyjnym jako uzupełnienie interfejsu użytkownika windows. Przy czym od czasu premiery Visty zaczyna wyglądać to coraz ciekawiej. Narzędzie rozpoznawania mowy Windows Vista omawiał Docent (Wojciech Kowasz) w swojej demonstracji na łamach dobrych programów już jakiś czas temu. Jest to fajna sprawa, jeśli chciało by się obsługiwać np. odtwarzacz filmów komendami głosowymi bez wstawania z kanapy, jednak nie ma róży bez kolców - jak na razie nie da się tej funkcji uruchomić na polskiej edycji systemu windows, bo nie ma wsparcia dla wielu języków. Jednak jest nadzieja w postaci projektu (Skrybot doMowy) prowadzonego przez polską firmę, mającego na celu stworzenie skutecznego narzędzia rozpoznawania mowy w języku polskim. Demo na licencji LGPL można pobrać z sourceforge.net lub ze strony producenta, który zaprasza chętnych do beta-testów oprogramowania. Chwilę testowałem ten program i stwierdzam, że jest to puki co oprogramowanie co najwyżej dla spikerów radiowych lub lektorów telewizyjnych z perfekcyjną dykcją i wymową, choć trzeba przyznać, że efekt działania programu jest już niezły, to do tego co pokazał Microsoft w swoim programie jeszcze daleko (rozumiał nawet nie do końca poprawnie wypowiedziane wyrazy np. "dilejt" zamiast "dilit" we wcześniej wspomnianej demonstracji). Warto także wspomnieć, że funkcje sterowania głosem ma od lat przeglądarka Opera (taka mała dygresja :) We wcześniejszej wersji wpisu pisałem o tym szerzej, jednak mała awaria zasilania sprawiła, że tamten tekst zniknął bezpowrotnie :> ).

Przy okazji warto ożywić legendę o systemie stworzonym przez USA i jeszcze kilka państw w celu inwigilowania własnych obywateli a kto wie - może nawet całego świata ;) Mało który internauta nie słyszał nigdy o Echelonie :), który wydaje mi się teraz o wiele bardziej możliwy do realizacji niż kiedyś.

Szansę dla tej technologii na rynku komputerów osobistych widzę w komunikatorach w kombinacji z syntezatorem mowy gdy chcemy np. w czasie rozmowy tekstowej gdzieś wyjść to zakładamy na ucho słuchawkę bluetooth i rozmawiamy dalej a komputer w czasie rzeczywistym zamienia tekst na mowę i vice versa, ale to pod warunkiem, że komunikatory głosowe nie wyprą tekstowych (co jest raczej mało prawdopodobne). Pewnikiem dla rozpoznawania mowy będzie wsparcie osób niepełnosprawnych (zwłaszcza niewidomych), więc ostateczny werdykt jest jednak pozytywny mimo, że zazwyczaj przeciętnemu użytkownikowi nie jest sterowanie za pomocą głosu potrzebne (ani specjalnie wygodne).

obrazki pochodzą ze stron: openclipart.org oraz commons.wikimedia.org