Strona używa cookies (ciasteczek). Dowiedz się więcej o celu ich używania i zmianach ustawień. Korzystając ze strony wyrażasz zgodę na używanie cookies, zgodnie z aktualnymi ustawieniami przeglądarki.    X

Windows Speech Recognition- przydatne?

Postanowiłem zmienić tematykę wpisów z PS3 na Windows. Zastanawiałem się co by tu opisać czego nie było w ogóle lub było ale bardzo dawno.
Po namyśle wybrałem jedną z ciekawszych funkcji Windows od czasów Visty- Windows Speech Recognition, w polskiej wersji systemów MS "znane" jako rozpoznawanie mowy w systemie Windows.

Ważna informacja: funkcja ta działa tylko gdy nasz system (język interfejsu, nie mylić z językiem wprowadzania) jest w jednym z poniższych języków: angielski, francuski, hiszpański, niemiecki, japoński lub chiński uproszczony i tradycyjny. Jak już się zapewne domyśliliście, funkcja ta w polskich wersjach Windows nie jest dostępna- po wybraniu funkcji rozpoznawanie mowy systemu Windows użytkowników polskich Windows wita następujący komunikat:

Od mniej więcej 2008 roku korzystam z angielskich wersji Windows (najpierw Visty, teraz 7) dzięki czemu mam dostęp do tej funkcji już od dawna. W W7 działa ona odrobinę lepiej do tej znanej z Visty (choć na pierwszy rzut oka zmian brak- identyczny aplet, tutorial, panel ustawień itd) choć do ideału jeszcze wiele brakuje. Przede wszystkim, z naszego punktu widzenia brak wsparcia dla języka polskiego ale akurat to w ogóle nie dziwi- nasz rynek jest po prostu za mały dla MS by inwestować w rozwój tak "mało ważnej" (z ich punktu widzenia) funkcji, bez której i tak się Windows sprzeda. O ile brak wsparcia dla wprowadzania w języku Polskim rozumiem tak całkowite zablokowanie tej appki w polskiej wersji Windows już nie- część jej funkcji mogłaby spokojnie być dostępna w oparciu o angielskie komendy (np "zaznacz wszystko", wybieranie/otwieranie folderów- czyli to co nie działa w oparciu o nazwy elementów widoczne na ekranie- np takie okno komputer wyświetlać możemy mówiąc: "view numbers"/ na ikonach pokazują nam się numery, mówimy numer ikony komputer i enter- otwiera się okno komputer).
[b]WSR[/b] nadal nie jest doskonale jeśli chodzi o rozumienie tego co do niej mówimy- nadal zdarza się, że funkcja rozumie co innego niż my chcemy choć to akurat w dużej mierze wina mojej niezbyt dobrej wymowy języka angielskiego (a to dlatego, że po za IT preferuję język naszych zachodnich sąsiadów).
Jako, że jednym z elementów tej funkcji jest wprowadzanie tekstów to najbardziej brakuje wielojęzyczności rozpoznawania mowy: mając Windows w wersji angielskiej możemy wprowadzać tekst tylko w języku angielskim, mając Windows w wersji niemieckiej tylko po niemiecku itd.
Problemu tego nie mają użytkownicy Windows 8 (we wszystkich wersjach) oraz najdroższych vist i 7- mogą sobie w każdej chwili przestawić język na inny wgrywając paczkę językową (inna sprawa, że to mało wygodne gdyż wymaga wylogowania i ponownego zalogowania się). Prawda jest jednak taka, że 90% komputerów było sprzedawanych z Windows Vistą/7 w wydaniach Home Premium i czasem Bussiness/Prof a w tych wersjach zgodnie z licencją nie możemy zmienić języka. Osobiście nie mogę się już doczekać zakupu tabletu z Windows 8 i możliwości sprawdzenia tego co oferuje WSR w języku niemieckim.

Konfiguracja rozpoznawania mowy

Po uruchomieniu funkcji (najszybciej: w menu Start wpisz windows speech recognition i enter) wita nas kreator konfiguracji pozwalający wybrać z jakiego mikrofonu korzystamy a następnie tutorial, w którym możemy się dowiedzieć jak się korzysta z tej funkcji oraz sami podejmujemy pierwsze próby sterowania głosem. Jeśli ktoś potrzebuje więcej informacji to polecam wejście do Help& Support w Windows i wpisanie "speech recognition". Inforamacje odnośnie tej funkcji są też bardzo dobrze opisane na stronach Supportu MS, co ciekawe także w języku polskim. Jeśli ktoś potrzebuje tych informacji np. w języku niemieckim to wystarczy w adresie strony zmienić fragment odpowiedzialny za język strony ( en-us na de-de i podobnie dla innych języków).

Co możemy zrobić korzystając z Windows Speech Recognition?

Korzystając z rozpoznawania mowy można między innymi:
- kliknąć gdziekolwiek na ekranie (poprzez wyświetlenie siatki myszy)- szczególnie przydatne w aplikacjach firm trzecich, które nie są całkowicie wspierane przez mechanizm WSR
- dyktować tekst
- otwierać, przełączać się między oknami/ programami
- przechodzić do pól formularzy
- wyświetlić pulpit
- wyświetlić listę "co mogę powiedzieć"
- korzystając z rozpoznawania mowy ustawionego na US-English możemy też bezpośrednio szukać w pomocy technicznej: mówimy "how can i install a printer", otwiera się okno pomocy i szuka nam rozwiązania :)
- korzystać z menu pod prawym klawiszem myszy
- grać w pasjansa pająka
-przewijać strony www, pliki

i wiele innych możliwości. Praktycznie jesteśmy ograniczeni tylko tym czy komputer nas zrozumie. Jak działa ta funkcja możecie zobaczyć na video-prezentacji autorstwa Docenta wykonanej jeszcze na przedpremierowej Windows Vista.

Czy przydatne?

Wszystko zależy od naszych zdolności językowych- jak wspomniałem ta funkcja jest dość wrażliwa na wymowę i zdarza jej się "rozumieć" co innego niż mówimy (przynajmniej ja tam mam) ale nie jest to uciążliwe.
Sterowanie komputerem z użyciem głosu na start wydaje się być strasznie nienaturalne a tego typu spostrzeżenia są wzmocnione koniecznością używania obcego języka ale jak już przywykniemy to będzie to dla nas jeśli nie główna metoda "komunikacji" z pc to na pewno świetne uzupełnienie zwyczajnych sposobów. W każdym razie polecam wypróbować bo jest to coś fajnego :).

 

windows oprogramowanie inne

Komentarze

0 nowych
winter_fresh   5 #1 21.04.2013 21:00

Na szczęście jest SpikIt :)

alucosoftware   7 #2 21.04.2013 21:40

@winter_fresh
Rzeczywiście, jest Spikit, dzięki któremu sami możemy określić co i w jakim celu chcemy powiedzieć do naszego komputera. I o to przecież chodzi, użytkownik powinien mieć pełną kontrolę nad listą dostępnych poleceń :)

BTW, Spikit za parę dni zyska kolejną paczkę ficzerów:
- możliwość nawigowania po elementach okien przez wypowiadanie ich nazw (np. nazw przycisków, wszystkiego w co można kliknąć)
- 10-krotny wzrost szybkości oznaczania elementów (a'la "show numbers" z WSR)
- możliwość powtarzania poleceń N-razy
- itp. itd. :)

Autor edytował komentarz.
  #3 21.04.2013 23:15

Ja tam wolałem się bawić w rozpoznawanie mowy Google, rozpoznaje chyba najlepiej na rynku. Speech Recognition od MS też jest dobry, tylko wymaga angielskiego, a nie da się wymusić uruchomienia

przemor25   14 #4 22.04.2013 18:13

Zawsze mnie to trochę dziwiło, że Microsoft traktuje Polaków i nie tylko jako gości nie potrafiących wprowadzać czegoś w innym niż ojczysty języku. Lepszym pomysłem byłby wybór języka wprowadzania podczas pierwszego uruchamiana WSR. Wilk byłby syty i owca cała ;-)

xomo_pl   20 #5 22.04.2013 22:50

@przemor25; też się nad tym zastanawiałem nie raz i jedyne sensowne wytłumaczenie jest w prezentacji Docenta- MS ponoć oparł WSR o to co widać na ekranie- a w PL Win widzimy polskie nazwy przez to WSR nie miałoby punktu odniesienia ale z drugiej strony część oparta o "view numbers" czy dyktowanie "tekstów" nie działa w oparciu o nazwy widoczne na ekranie więc te elementy mogłyby być dostępne w każdych wersjach językowych. Widocznie tak po prostu jest "prościej".
Od siebie dodam jeszcze, że jak mamy dobrą wymowę to WSR jest po prostu genialne- zamiast view numers itd mówimy bezpośrednio czego oczekujemy np otwarcia linka na np cnn.com wystarczy powiedzieć jego nazwę i się otwiera.

@fervi.doctor;
zależy co masz na myśli pisząc "nie da się wymusić uruchomienia"- jeśli masz po prostu vistę/7 w edycjach bez oficjalnego dostępu do zmiany pakietów językowych to nieoficjalnie da się zmienić język i następnie odpalić WSR; How to znajdziesz w Google bez problemu. Teoretycznie licencja Windows na to nie pozwala ale technicznie jest to możliwe dla chcących :)

@alucusoftware;
przymierzam się do przetestowania Spikit ale przed tym dopytam? po odpaleniu będzie to od razu działać jak WSR czy trzeba najpierw spędzić czas na konfigurowaniu komend? :)

alucosoftware   7 #6 23.04.2013 10:15

@alucosoftware
Wszystko poza mechanizmem a'la "show numbers" działa w Spikit szybciutko i bez problemu. Możesz zdefiniować setki (i tysiące) własnych poleceń. W WSR nie masz takich możliwości ;) Program dostarczam z bazą podstawowych poleceń oraz obszerną instrukcją jak dodać nowe lub zmienić (dostosować) istniejące polecenia głosowe.

Usprawniona szybkość działania mechanizmu oznaczania elementów na ekranie pojawi się jeszcze w tym tygodniu. Będzie wtedy można swobodnie nawigować po stronach wypowiadając nazwy elementów, w które chcemy kliknąć.

przemor25   14 #7 23.04.2013 17:18

Też się nie oszukujmy, to co jest dołączane do systemu, starcza tylko na podstawowe potrzeby. Gdyby tak Windows zamiast Painta miał program pokroju na przykład Paint.Net (i tak dalej) a zamiast WSR byłby Spikit, to cena systemu wzrosłaby znacznie :) Kto ma potrzebę to sobie rozszerzy daną funkcjonalność, która jest w systemie :) I dobrze, że takie perełki jak Spikit powstają, i jeszcze lepiej, że autor programu daje okazję do rozdania dożywotniej licencji za darmo :)

xomo_pl   20 #8 23.04.2013 17:25

@przemor25; tu raczej chodzi o to, że zaraz by się wszelakie komisje antymonopolowe doczepiły, że MS próbuje wygryźć konkurentów dając w systemie bardzo funkcjonalne aplikacje. Co było z IE- opera doniosła do KE że MS podbiera konkurencji rynek bo w systemie dodaje przeglądarkę. Podobna sprawa była galerią fotografii z visty- w 7 standardowo dali już bez funkcji "napraw zdjęcie" bo ktoś tam się ich czepiał, że próbują wygryźć konkurentów...

alucosoftware   7 #9 23.04.2013 21:11

@zomo_prl
Komisja niewiele by tu zmieniła. Funkcjonalność oprogramowania dostarczanego z systemem, ale także przez producentów zewnętrznych jest ograniczana celowo. Dodam nowy przycisk - zapłać. Zmienię ikonki - zapłać. Zmienię nazwę produktu - zapłać... Kiedyś (2007 +- 2 lata) czytałem wywiad z kierownictwem Vista Speech Recognition User Experience. Wspominał o tym, że pracują nad możliwością prostego definiowania własnych poleceń. Są makra, ale dżizas krajst, nie każdy to przecież zrozumie.

@przemor25
Żeby tylko użytkownicy to doceniali... Większość bierze i na braniu poprzestaje, trochę to deprymujące. Dobrze, że chociaż ta blogowa brać dp jest bardziej przychylna "perełkom" ;)

przemor25   14 #10 24.04.2013 18:03

Dlatego nie dziwi fakt, że Microsoft tak bardzo stawia na chmurę. To, co jest w chmurze, nie jest rozprowadzane razem z systemem chociaż jest ściśle z nim powiązany. Gdyby nie intensywny rozwój chmury, Microsoft mógłby mieć mniejsze wpływy do budżetu niż ma obecnie, tak mi się przynajmniej wydaje :)

@alucosoftware
Tak z ciekawości się pytam: masz może w planach jakiś nowy projekt poza Spikitem? :)

alucosoftware   7 #11 24.04.2013 19:26

@przemor25
To zależy o jaką publiczność pytasz (zwykli konsumenci czy segment biznesowy) i z jakiej perspektywy (odbiorca czy inwestor)?

Autor edytował komentarz.
xomo_pl   20 #12 24.04.2013 21:29

to ja zapytam jako ewentualny odbiorca :)

przemor25   14 #13 25.04.2013 18:30

@alucosoftwarte
Pytałem się z perspektywy biednego pożeracza newsów i blogów na DP :)