Blog (13)
Komentarze (1.1k)
Recenzje (2)

Jaką przyszłość ma rozpoznawanie mowy przez komputer?

@AndrzejGJaką przyszłość ma rozpoznawanie mowy przez komputer?21.07.2010 17:58

Czy jest choć jeden entuzjasta nowych technologii, który nigdy nie słyszał o rozpoznawaniu mowy lub przynajmniej wybieraniu głosowym w telefonach komórkowych? Pamiętam jak pierwszy raz zetknąłem się z tą funkcją w telefonie Ericsson R310s (nie mogłem się oprzeć, aby nie pokazać wam jak wyglądał :) oczywiście tym, którzy nie wiedzą). Telefon ten, to było coś więcej niż tylko narzędzie do rozmów, stosunkowo powolny (opóźnienia przy korzystaniu z funkcji menu), wielki i miał ekscentryczny wygląd - był niemal niezniszczalny, jedyny w swoim rodzaju telefon, który można było tylko uwielbiać lub nienawidzić i miał tą ciekawą funkcję etykiet głosowych, które wystarczyło nagrać a potem wypowiedzieć ponownie, aby telefon porównał wypowiedziane słowo "klucz" do nagranych wcześniej etykiet i łączył z odpowiednim kontaktem o ile rozpoznał prawidłowo wypowiedziane przeze mnie słowo. Właśnie. O ile rozpoznał prawidłowo, a najczęściej tego nie robił, bo: nie uwzględniał separacji dźwięków otoczenia oraz wymagał powiedzenia słowa "klucza" z podobną lub identyczną intonacją a więc z miejsca odpadały takie sytuacje, w których ta funkcja tak na prawdę mogła się przydać czyli np. jazda na rowerze czy podróż zatłoczonym autobusem lub w innej sytuacji, w której nie ma możliwości wygodnego wyciągnięcia telefonu z kieszeni i wybrania numeru ręcznie. We współczesnych aparatach funkcja ta działa lepiej lecz nadal daleko poniżej oczekiwań lub zanikła zupełnie bo użytkownicy bardzo rzadko z niej korzystają o ile w ogóle o jej istnieniu wiedzieli.

Ostatnie lata, to ogromny postęp technologii w rozpoznawaniu mowy, jednak wciąż jedynie na poziomie, który może najwyżej wspomagać pracę, niż zmienić jej charakter (np. dyktowanie zamiast pisania). Szczerze - nawet jeżeli technologia rozpoznawania mowy będzie w stanie idealnie rozpoznawać to co mówimy, to nie znaczy, że zawsze to będzie dobrze. Np. jeśli mechanizm nie będzie posiadał własnej inteligencji, to będzie notował wszelkie niezamierzone pauzy i przecinki, a poprawianie tego zajmie więcej czasu niż by się zaoszczędziło na pisaniu. Potem trzeba by było jeszcze raz taki podyktowany dokument sprawdzić, bo pół biedy, jeśli to zwykła lista zakupów, ale jeśli by to było jakieś ważne oświadczenie, coś pod czym się podpisujemy (biometrycznie i elektronicznie oczywiście;), to jeśli sami nie napiszemy czegoś, to pewności nigdy nie ma a podczas pisania własnoręcznego ma się pewną kontrolę nad tekstem, łatwiej się go formatuje "w locie". Muszę wspomnieć jeszcze, że jestem "wzrokowcem" i jakoś nie jestem przekonany do dyktowania - pisząc lepiej panuję nad tekstem, jego składnią i wątkiem, nawet gdy mówiony tekst pojawia się mi przed oczami - na ekranie. Pewnie reszta wzrokowców ma podobnie - pamiętają "obrazami". Oczywiście nie stoi to na przeszkodzie, by "słuchowcy" mieli łatwiej :)

Mało kto pewnie wie, że wielkie korporacje medialne już wykorzystują oprogramowanie do rozpoznawania mowy aby śledzić programy informacyjne na całym świecie. Wyobrażacie sobie, że w poszukiwaniu jakiejś informacji możecie przeszukiwać nagrania różnych stacji telewizyjnych i radiowych pod kątem słów kluczowych wypowiedzianych w czasie programu? To technologia do niedawna uznawana za bajkową - SciFi w każdym calu, a tu nagle się okazuje, że firmy monitorujące media inwestują wielkie kwoty w takie właśnie mechanizmy. Poza tym nie tylko te firmy inwestują w tych rejonach IT. Google wprowadziło swoje aplikacje do rozpoznawania mowy na smartfony (o ile dość nieźle radziły sobie z amerykanami, to akcent anglików okazał się dla tej funkcjonalności nie do przeskoczenia) oraz wyszukiwanie słów wypowiedzianych w filmach zamieszczonych na youtube (labs). Microsoft również nie próżnuje i już od czasów windows xp systematycznie poprawia swoje mechanizmy rozpoznawania mowy naturalnej w systemie operacyjnym jako uzupełnienie interfejsu użytkownika windows. Przy czym od czasu premiery Visty zaczyna wyglądać to coraz ciekawiej. Narzędzie rozpoznawania mowy Windows Vista omawiał Docent (Wojciech Kowasz) w swojej demonstracji na łamach dobrych programów już jakiś czas temu. Jest to fajna sprawa, jeśli chciało by się obsługiwać np. odtwarzacz filmów komendami głosowymi bez wstawania z kanapy, jednak nie ma róży bez kolców - jak na razie nie da się tej funkcji uruchomić na polskiej edycji systemu windows, bo nie ma wsparcia dla wielu języków. Jednak jest nadzieja w postaci projektu (Skrybot doMowy) prowadzonego przez polską firmę, mającego na celu stworzenie skutecznego narzędzia rozpoznawania mowy w języku polskim. Demo na licencji LGPL można pobrać z sourceforge.net lub ze strony producenta, który zaprasza chętnych do beta-testów oprogramowania. Chwilę testowałem ten program i stwierdzam, że jest to puki co oprogramowanie co najwyżej dla spikerów radiowych lub lektorów telewizyjnych z perfekcyjną dykcją i wymową, choć trzeba przyznać, że efekt działania programu jest już niezły, to do tego co pokazał Microsoft w swoim programie jeszcze daleko (rozumiał nawet nie do końca poprawnie wypowiedziane wyrazy np. "dilejt" zamiast "dilit" we wcześniej wspomnianej demonstracji). Warto także wspomnieć, że funkcje sterowania głosem ma od lat przeglądarka Opera (taka mała dygresja :) We wcześniejszej wersji wpisu pisałem o tym szerzej, jednak mała awaria zasilania sprawiła, że tamten tekst zniknął bezpowrotnie :> ).

Przy okazji warto ożywić legendę o systemie stworzonym przez USA i jeszcze kilka państw w celu inwigilowania własnych obywateli a kto wie - może nawet całego świata ;) Mało który internauta nie słyszał nigdy o Echelonie :), który wydaje mi się teraz o wiele bardziej możliwy do realizacji niż kiedyś.

Szansę dla tej technologii na rynku komputerów osobistych widzę w komunikatorach w kombinacji z syntezatorem mowy gdy chcemy np. w czasie rozmowy tekstowej gdzieś wyjść to zakładamy na ucho słuchawkę bluetooth i rozmawiamy dalej a komputer w czasie rzeczywistym zamienia tekst na mowę i vice versa, ale to pod warunkiem, że komunikatory głosowe nie wyprą tekstowych (co jest raczej mało prawdopodobne). Pewnikiem dla rozpoznawania mowy będzie wsparcie osób niepełnosprawnych (zwłaszcza niewidomych), więc ostateczny werdykt jest jednak pozytywny mimo, że zazwyczaj przeciętnemu użytkownikowi nie jest sterowanie za pomocą głosu potrzebne (ani specjalnie wygodne).

obrazki pochodzą ze stron: openclipart.org oraz commons.wikimedia.org

Szanowna Użytkowniczko! Szanowny Użytkowniku!
×
Aby dalej móc dostarczać coraz lepsze materiały redakcyjne i udostępniać coraz lepsze usługi, potrzebujemy zgody na dopasowanie treści marketingowych do Twojego zachowania. Twoje dane są u nas bezpieczne, a zgodę możesz wycofać w każdej chwili na podstronie polityka prywatności.

Kliknij "PRZECHODZĘ DO SERWISU" lub na symbol "X" w górnym rogu tej planszy, jeżeli zgadzasz się na przetwarzanie przez Wirtualną Polskę i naszych Zaufanych Partnerów Twoich danych osobowych, zbieranych w ramach korzystania przez Ciebie z usług, portali i serwisów internetowych Wirtualnej Polski (w tym danych zapisywanych w plikach cookies) w celach marketingowych realizowanych na zlecenie naszych Zaufanych Partnerów. Jeśli nie zgadzasz się na przetwarzanie Twoich danych osobowych skorzystaj z ustawień w polityce prywatności. Zgoda jest dobrowolna i możesz ją w dowolnym momencie wycofać zmieniając ustawienia w polityce prywatności (w której znajdziesz odpowiedzi na wszystkie pytania związane z przetwarzaniem Twoich danych osobowych).

Od 25 maja 2018 roku obowiązuje Rozporządzenie Parlamentu Europejskiego i Rady (UE) 2016/679 (określane jako "RODO"). W związku z tym chcielibyśmy poinformować o przetwarzaniu Twoich danych oraz zasadach, na jakich odbywa się to po dniu 25 maja 2018 roku.

Kto będzie administratorem Twoich danych?

Administratorami Twoich danych będzie Wirtualna Polska Media Spółka Akcyjna z siedzibą w Warszawie, oraz pozostałe spółki z grupy Wirtualna Polska, jak również nasi Zaufani Partnerzy, z którymi stale współpracujemy. Szczegółowe informacje dotyczące administratorów znajdują się w polityce prywatności.

O jakich danych mówimy?

Chodzi o dane osobowe, które są zbierane w ramach korzystania przez Ciebie z naszych usług, portali i serwisów internetowych udostępnianych przez Wirtualną Polskę, w tym zapisywanych w plikach cookies, które są instalowane na naszych stronach przez Wirtualną Polskę oraz naszych Zaufanych Partnerów.

Dlaczego chcemy przetwarzać Twoje dane?

Przetwarzamy je dostarczać coraz lepsze materiały redakcyjne, dopasować ich tematykę do Twoich zainteresowań, tworzyć portale i serwisy internetowe, z których będziesz korzystać z przyjemnością, zapewniać większe bezpieczeństwo usług, udoskonalać nasze usługi i maksymalnie dopasować je do Twoich zainteresowań, pokazywać reklamy dopasowane do Twoich potrzeb. Szczegółowe informacje dotyczące celów przetwarzania Twoich danych znajdują się w polityce prywatności.

Komu możemy przekazać dane?

Twoje dane możemy przekazywać podmiotom przetwarzającym je na nasze zlecenie oraz podmiotom uprawnionym do uzyskania danych na podstawie obowiązującego prawa – oczywiście tylko, gdy wystąpią z żądaniem w oparciu o stosowną podstawę prawną.

Jakie masz prawa w stosunku do Twoich danych?

Masz prawo żądania dostępu, sprostowania, usunięcia lub ograniczenia przetwarzania danych. Możesz wycofać zgodę na przetwarzanie, zgłosić sprzeciw oraz skorzystać z innych praw wymienionych szczegółowo w polityce prywatności.

Jakie są podstawy prawne przetwarzania Twoich danych?

Podstawą prawną przetwarzania Twoich danych w celu świadczenia usług jest niezbędność do wykonania umów o ich świadczenie (tymi umowami są zazwyczaj regulaminy). Podstawą prawną przetwarzania danych w celu pomiarów statystycznych i marketingu własnego administratorów jest tzw. uzasadniony interes administratora. Przetwarzanie Twoich danych w celach marketingowych realizowanych przez Wirtualną Polskę na zlecenie Zaufanych Partnerów i bezpośrednio przez Zaufanych Partnerów będzie odbywać się na podstawie Twojej dobrowolnej zgody.