Strona używa cookies (ciasteczek). Dowiedz się więcej o celu ich używania i zmianach ustawień. Korzystając ze strony wyrażasz zgodę na używanie cookies, zgodnie z aktualnymi ustawieniami przeglądarki.    X

Jaką przyszłość ma rozpoznawanie mowy przez komputer?

Czy jest choć jeden entuzjasta nowych technologii, który nigdy nie słyszał o rozpoznawaniu mowy lub przynajmniej wybieraniu głosowym w telefonach komórkowych? Pamiętam jak pierwszy raz zetknąłem się z tą funkcją w telefonie Ericsson R310s (nie mogłem się oprzeć, aby nie pokazać wam jak wyglądał :) oczywiście tym, którzy nie wiedzą). Telefon ten, to było coś więcej niż tylko narzędzie do rozmów, stosunkowo powolny (opóźnienia przy korzystaniu z funkcji menu), wielki i miał ekscentryczny wygląd - był niemal niezniszczalny, jedyny w swoim rodzaju telefon, który można było tylko uwielbiać lub nienawidzić i miał tą ciekawą funkcję etykiet głosowych, które wystarczyło nagrać a potem wypowiedzieć ponownie, aby telefon porównał wypowiedziane słowo "klucz" do nagranych wcześniej etykiet i łączył z odpowiednim kontaktem o ile rozpoznał prawidłowo wypowiedziane przeze mnie słowo. Właśnie. O ile rozpoznał prawidłowo, a najczęściej tego nie robił, bo: nie uwzględniał separacji dźwięków otoczenia oraz wymagał powiedzenia słowa "klucza" z podobną lub identyczną intonacją a więc z miejsca odpadały takie sytuacje, w których ta funkcja tak na prawdę mogła się przydać czyli np. jazda na rowerze czy podróż zatłoczonym autobusem lub w innej sytuacji, w której nie ma możliwości wygodnego wyciągnięcia telefonu z kieszeni i wybrania numeru ręcznie. We współczesnych aparatach funkcja ta działa lepiej lecz nadal daleko poniżej oczekiwań lub zanikła zupełnie bo użytkownicy bardzo rzadko z niej korzystają o ile w ogóle o jej istnieniu wiedzieli.

Ostatnie lata, to ogromny postęp technologii w rozpoznawaniu mowy, jednak wciąż jedynie na poziomie, który może najwyżej wspomagać pracę, niż zmienić jej charakter (np. dyktowanie zamiast pisania). Szczerze - nawet jeżeli technologia rozpoznawania mowy będzie w stanie idealnie rozpoznawać to co mówimy, to nie znaczy, że zawsze to będzie dobrze. Np. jeśli mechanizm nie będzie posiadał własnej inteligencji, to będzie notował wszelkie niezamierzone pauzy i przecinki, a poprawianie tego zajmie więcej czasu niż by się zaoszczędziło na pisaniu. Potem trzeba by było jeszcze raz taki podyktowany dokument sprawdzić, bo pół biedy, jeśli to zwykła lista zakupów, ale jeśli by to było jakieś ważne oświadczenie, coś pod czym się podpisujemy (biometrycznie i elektronicznie oczywiście;), to jeśli sami nie napiszemy czegoś, to pewności nigdy nie ma a podczas pisania własnoręcznego ma się pewną kontrolę nad tekstem, łatwiej się go formatuje "w locie". Muszę wspomnieć jeszcze, że jestem "wzrokowcem" i jakoś nie jestem przekonany do dyktowania - pisząc lepiej panuję nad tekstem, jego składnią i wątkiem, nawet gdy mówiony tekst pojawia się mi przed oczami - na ekranie. Pewnie reszta wzrokowców ma podobnie - pamiętają "obrazami". Oczywiście nie stoi to na przeszkodzie, by "słuchowcy" mieli łatwiej :)

Mało kto pewnie wie, że wielkie korporacje medialne już wykorzystują oprogramowanie do rozpoznawania mowy aby śledzić programy informacyjne na całym świecie. Wyobrażacie sobie, że w poszukiwaniu jakiejś informacji możecie przeszukiwać nagrania różnych stacji telewizyjnych i radiowych pod kątem słów kluczowych wypowiedzianych w czasie programu? To technologia do niedawna uznawana za bajkową - SciFi w każdym calu, a tu nagle się okazuje, że firmy monitorujące media inwestują wielkie kwoty w takie właśnie mechanizmy. Poza tym nie tylko te firmy inwestują w tych rejonach IT. Google wprowadziło swoje aplikacje do rozpoznawania mowy na smartfony (o ile dość nieźle radziły sobie z amerykanami, to akcent anglików okazał się dla tej funkcjonalności nie do przeskoczenia) oraz wyszukiwanie słów wypowiedzianych w filmach zamieszczonych na youtube (labs). Microsoft również nie próżnuje i już od czasów windows xp systematycznie poprawia swoje mechanizmy rozpoznawania mowy naturalnej w systemie operacyjnym jako uzupełnienie interfejsu użytkownika windows. Przy czym od czasu premiery Visty zaczyna wyglądać to coraz ciekawiej. Narzędzie rozpoznawania mowy Windows Vista omawiał Docent (Wojciech Kowasz) w swojej demonstracji na łamach dobrych programów już jakiś czas temu. Jest to fajna sprawa, jeśli chciało by się obsługiwać np. odtwarzacz filmów komendami głosowymi bez wstawania z kanapy, jednak nie ma róży bez kolców - jak na razie nie da się tej funkcji uruchomić na polskiej edycji systemu windows, bo nie ma wsparcia dla wielu języków. Jednak jest nadzieja w postaci projektu (Skrybot doMowy) prowadzonego przez polską firmę, mającego na celu stworzenie skutecznego narzędzia rozpoznawania mowy w języku polskim. Demo na licencji LGPL można pobrać z sourceforge.net lub ze strony producenta, który zaprasza chętnych do beta-testów oprogramowania. Chwilę testowałem ten program i stwierdzam, że jest to puki co oprogramowanie co najwyżej dla spikerów radiowych lub lektorów telewizyjnych z perfekcyjną dykcją i wymową, choć trzeba przyznać, że efekt działania programu jest już niezły, to do tego co pokazał Microsoft w swoim programie jeszcze daleko (rozumiał nawet nie do końca poprawnie wypowiedziane wyrazy np. "dilejt" zamiast "dilit" we wcześniej wspomnianej demonstracji). Warto także wspomnieć, że funkcje sterowania głosem ma od lat przeglądarka Opera (taka mała dygresja :) We wcześniejszej wersji wpisu pisałem o tym szerzej, jednak mała awaria zasilania sprawiła, że tamten tekst zniknął bezpowrotnie :> ).

Przy okazji warto ożywić legendę o systemie stworzonym przez USA i jeszcze kilka państw w celu inwigilowania własnych obywateli a kto wie - może nawet całego świata ;) Mało który internauta nie słyszał nigdy o Echelonie :), który wydaje mi się teraz o wiele bardziej możliwy do realizacji niż kiedyś.

Szansę dla tej technologii na rynku komputerów osobistych widzę w komunikatorach w kombinacji z syntezatorem mowy gdy chcemy np. w czasie rozmowy tekstowej gdzieś wyjść to zakładamy na ucho słuchawkę bluetooth i rozmawiamy dalej a komputer w czasie rzeczywistym zamienia tekst na mowę i vice versa, ale to pod warunkiem, że komunikatory głosowe nie wyprą tekstowych (co jest raczej mało prawdopodobne). Pewnikiem dla rozpoznawania mowy będzie wsparcie osób niepełnosprawnych (zwłaszcza niewidomych), więc ostateczny werdykt jest jednak pozytywny mimo, że zazwyczaj przeciętnemu użytkownikowi nie jest sterowanie za pomocą głosu potrzebne (ani specjalnie wygodne).

obrazki pochodzą ze stron:openclipart.org oraz commons.wikimedia.org 

Komentarze

0 nowych
  #1 21.07.2010 17:47

Bardziej poprawnie tytuł powinien brzmieć: "Jaką przyszłość ma rozpoznawanie przez komputer mowy?"

Meszuge   16 #2 21.07.2010 17:56

@Karolinah

A po polsku:

Jaką przyszłość ma rozpoznawanie mowy przez komputer. :-)

Ale to dość powszechna maniera wśród ludzi, którzy dotąd nie pisali zbyt wiele. Stosowanie udziwnionego szyku wydaje się lepsze, pozornie dodaje powagi przekazywanej treści.

Wielu ludzi mówi zupełnie normalnie, ale jeśli zechcą coś zapisać i do tego jeszcze opublikować, dojdą do wniosku, że lepiej jest użyć "nabyłem" zamiast "kupiłem", "spożyłem" zamiast "zjadłem" itp.

saiver   4 #3 21.07.2010 17:58

Muszę pogratulować. Bardzo fajny, oryginalny i lekki wpis.
To właśnie dzięki wspomnianej prezentacji Docenta sam zainteresowałem się trochę tym mechanizmem w Viście. Niestety z powodu braku obsługi języka polskiego i bycia wzrokowcem porzuciłem ten gadżet. Miło było troszkę odświeżyć swoją wiedzę na ten temat.
Od dłuższego czasu korzystam właśnie z Opery i staram się wykorzystywać większość ukrytych w niej funkcji. Zaintrygowałeś mnie funkcją sterowania głosem. Może dałoby się jakoś zreanimować ten utracony tekst ;x ?

Fanboj O   6 #4 21.07.2010 19:07

W pewnym zakresie rozpoznawanie zmierza w ślepą uliczkę. Coraz mniej sensu obecnie i zapewne w przyszłości będzie miał tekst.
Moim zdaniem przyszłość mglistą ma czytanie, tekst, książki itd. Po co zamieniać swoją mowę na tekst, skoro więcej odbiorców będzie miała mowa (dźwięk) a najlepiej filmik typu jutubowego? Tekściarz zawodowiec i tak przez najbliższe lata lepiej poradzi sobie na klawiaturze, która podczas szybkiego pisania zapewnia niemal mimowolną edycję tekstu. Takie wygadane teksty i tak trzeba później zredagować.

borzole   4 #5 21.07.2010 19:25

Gadanie jest jednak męczące (choć płeć piękna przeczy temu na caaaaałej linii ;) ). Nie wyobrażam sobie, że miałbym "napisać" program gadając do peceta, chociaż mniej "ścisłe" treści jak esej pewnie ładnie by wchodziły. Wydaje mi się, że takie oprogramowanie będzie skupiać się tylko na pojedynczych słowach-komendach. Oprócz gładkiego rozpoznawania mowy, potrzebne jest spore zaplecze do interpretacji, czyli namiastka sztucznej inteligencji. Niestety, świat jest wciąż 100 lat za murzynami z AI.

Mnie bardziej zaciekawiło sterowanie za pomocą wzroku (właściwie ruchem gałek ocznych). Kamerka i dobre oprogramowanie powinny wyeliminować w przyszłości myszkę. Istnieje też ciekawa technologia sterowania kursorem myszy za pomocą ...fal mózgowych. Przylepiają czujniki do czaszki i ruch odbywa się na podstawie aktywności obszarów mózgu. Podobno po 10min każdy łapie jak poruszyć kursorem. Ktoś wie może jak to się nazywa? Widziałem to nawet na sprzedaż w jakimś japońskim sklepie internetowym, pajączek z 6-8 czujkami. Z drugiej strony technologia wydaje się mieć dosyć płytkie możliwości, przy niewiadomych kosztach.

AndrzejG   10 #6 21.07.2010 19:47

@Meszuge masz rację, poirytowany wkleiłem kawałek tytułu, który zniknął po BSOD windows (kabel zasilania przy moleksie nie łączył) a nie popatrzyłem, że brzmi to jak awaryjne hamowanie pociągu :>

AndrzejG   10 #7 21.07.2010 20:08

Karolinah tobie też dziękuję za zwrócenie uwagi.
Ogólnie tekst nie jest najwyższych lotów z powodu wcześniej wymienionej awarii oraz mojej męczącej natury, która często ma tak wiele do powiedzenia, że sam się gubię w którym wątku akurat się znajduję. Na swoje usprawiedliwienie chcę dodać, że zawsze przed wypowiedzeniem się na jakiś temat, staram się wiedzieć o nim jak najwięcej oraz uwzględnić różne punkty widzenia :)

StawikPiast   11 #8 22.07.2010 11:12

poszukaj sobie przykladow jak dziala skrzynka glosowa w exchange 2010 i obsluga skrzynki exchange (od 2010) przez telefon. robi wrazenie a i jest w jezyku polskim.

tores1977   9 #9 22.07.2010 13:05

Co do funkcji głosowych, czy autor bawił się tym w iPhone 3Gs lub 4. Według mnie jest to pierwszy telefon z jako tako dopracowaną funkcją sterowania głosem, ale ogólnie w tym temacie jest sporo do zrobienia.

xomo_pl   21 #10 25.07.2010 13:20

Korzystałem trochę z rozpoznawania mowy w Vista eng jak i w wersji niemieckiej (po zainstalowaniu MUI DE na wersji ultimate) i uważam że jest to bardzo wygodne narzędzie do pracy w systemie, dyktowanie tekstów też jest wygodne.
Brak języka polskiego oraz konieczność perfekcyjnej wymowy (w wersji eng psuło całą przyjemność z pracy z SR, w wersji niemieckiej było z tym lepiej) powoduje że póki co ciężko z tego korzystać....

xomo_pl   21 #11 25.07.2010 13:26

czII

Myślę, że w najbliższej przyszłości SR zostanie udoskonalonei pozwoli w pewnej częśći zastąpić klawiaturę/mysz, szczególnie myślę to przeglądaniu folderów,plików itd

  #12 04.05.2016 02:27

Moj maz jest wspoltworca najlepszego na swiecie systemu rozpoznawania mowy, zapraszam na jego blog:
https://developer.ibm.com/watson/blog/2016/04/28/recent-advances-in-conversation.../