Strona używa cookies (ciasteczek). Dowiedz się więcej o celu ich używania i zmianach ustawień. Korzystając ze strony wyrażasz zgodę na używanie cookies, zgodnie z aktualnymi ustawieniami przeglądarki.    X

Od zera do spikera - sterujemy komputerem za pomocą głosu cz. 3

Komputer to nadal bezduszne narzędzie i bez cienia wątpliwości twierdzę, że nieprędko (o ile w ogóle) taki stan rzeczy ulegnie zmianie. Możemy jednak komunikować się z nim w całkiem ludzki sposób, tak jak z drugim człowiekiem, używając abstrakcyjnych pojęć i nośnika informacji jakim jest stara, wysłużona fala akustyczna.

Jak mówić do komputera, aby ten nas rozumiał? Najlepiej wykorzystać jakieś oprogramowanie, które wyszuka w naszej mowie wcześniej ustalone (zaprogramowane) komendy głosowe i podejmie właściwe dla tych poleceń działania. Aplikacją zdolną do podejmowania takich działań, obsługującą język polski, działającą szybko i sprawnie, jest Spikit. Ten tekst ma na celu pokazać, że utworzenie własnego asystenta głosowego może być bardzo proste i przyjemne.

Lekcja 3

W poprzednich dwóch częściach kursu (część 1, część 2) mieliśmy okazję zapoznać się z podstawowymi prawami rządzacymi światem tzw. Reguł głosowych. Utworzyliśmy przykładową listę z poleceniami głosowymi. Dowiedzieliśmy się również, że lista taka może przybierać różną postać i uzwględniać wiele scenariuszy, w których znaleźć się może użytkownik. Dziś zapoznamy się z właściwością Reguł głosowych, której warto poświęcić osobny wpis. W następnych częściach zajmiemy się już upragnioną konfiguracją programu w całej jego okazałości i przygotujemy nasz PC do pracy z użyciem naszego głosu.

Mów do mnie jeszcze...

Spikit 1.5+ nie jest wyłącznie oprogramowaniem, do którego tylko my, jego użytkownicy, możemy mówić! Nic nie stoi na przeszkodzie, aby zmusić komputer do przemówienia do nas. Technologie rozpoznawania mowy i jej syntezy wzajemnie się uzupełniają. Dzięki takiemu połączeniu i wynikającej z tego dwukierunkowej komunikacji, wrażenia z używania osobistego asystenta głosowego są o wiele bardziej bogate. W przypadku oprogramowania z naszego rodzimego podwórka, komputer może:
  • powtórzyć po nas wszystkie wypowiedziane przez nas komendy
  • wypowiedzieć rozpoznane zdania, których transkrypcja przebiegała z użyciem lokalnego Słownika lub przy użyciu modułu sieciowego
  • poinformować nas o swym stanie, zaistniałych zmianach w konfiguracji
  • wyartykułować odpowiedzi, które przypisaliśmy do poszczególnych poleceń w Regule głosowej

Pierwsze trzy z przywołanych wyżej cech Spikit można określić mianem zwyczajnych komunikatów głosowych i zarządzać trybem ich wypowiadania w dość prosty sposób tj. można włączyć lub wyłączyć tę funkcję programu tak jak zaprezentowałem to na poniższym filmie:

Ostatnia właściwość, czyli odpowiedzi głosowe, wymagają zaangażowania naszej inwencji twórczej. Tak jak każdemu poprawnemu poleceniu możemy przypisać tylko jedną akcję, tak też każdej nowej komendzie możemy przypisać dokładnie jedną odpowiedź głosową, choć równie dobrze nie musimy tego robić wcale. Aby przypisać odpowiedź głosową do polecenia głosowego, tuż po zdefiniowaniu akcji wytarczy umieścić znak dwukropka i wpisać jakiś tekst zgodnie ze schematem:

W najnowszej wersji Spikit możemy wykorzystywać specjalną akcję NULL, którą dodałem do programu za namową użytkowników, by ułatwić tworzenie poleceń służących jedynie 'konwersacji' z naszym komputerem. Dzięki temu będziemy mieli pewność, że rozpoznanie polecenia nie będzie wiązało się z wykonaniem przez program jakiejkolwiek sensownej czynności poza wypowiedzeniem stosownego komunikatu. Oczywiście mechanizm ten najlepiej sprawdza się w sytuacji, gdy nie spoglądamy akurat na ekran urządzenia. Spróbuj samodzielnie utworzyć podobny zestaw komend:

Tryb wypowiadania odpowiedzi głosowych jest w Spikit włączony domyślnie. Możesz więc sprawdzić sposób działania własnych poleceń od razu. Prostota z jaką możemy przypisywać odpowiedzi głosowe do poszczególnych komend przemawiają na korzyść programu. Choć tak naprawdę nadal mamy tu do czynienia z rozszerzonym monologiem, od naturalnej rozmowy z PC dzieli nas już bardzo niewiele. Funkcja ta nie ma na celu zastępować wyspecjalizowanych czytników ekranu, których dobrym przykładem jest systemowy Narrator w Windows Vista i wyżej, a jedynie zwiększyć interaktywność Spikit i ogólny odbiór technologii rozpoznawania mowy. Można na tę funkcję programu spojrzeć z innej perspektywy. Jaką radość sprawiałoby Tobie mówienie do ściany?! No jaką? :-)

Na pochwałę zasługuje tu postawa jednego z użytkowników programu, który we własnym zakresie tworzy programy pomocnicze współdziałające ze Spikit i rozszerzające pierwotną ideę. Cała dyskusja dobrze odzwierciedla sentencję "potrzeba jest matką wynalazków", więc z przyjemnością przekierowuję Czytelnika do całego wątku. Być może i Ty znajdziesz tu zalążek inspiracji.

Nowa wersja właśnie dostępna

Czy wiesz, że wraz z aktualizacją do wersji Spikit 1.5.2.0, bezpłatna wersja programu działa teraz dwukrotnie szybciej (opóźnienie zredukowane do 8 sekund), zachowując ten sam nieskończenie duży potencjał? Spikit lepiej radzi sobie teraz z treścią wyświetlaną na ekranie. Usprawnienia widoczne są począwszy od systememu Windows XP, a skończywszy na najnowszej wersji Windows 8 z trybem kafelków.

Garść najświeższych informacji, w tym opis wprowadzanych poprawek, znajdziesz na stronie programu na Facebooku.
 

oprogramowanie porady hobby

Komentarze

0 nowych
pablito24   8 #1 10.03.2014 16:47

Jej! Fajnie, że skrócił czas opóźnienia.

alucosoftware   7 #2 10.03.2014 17:27

@pablito24
Tak, teraz program w wersji bezpłatnej działa bardzo płynnie (średnie opóźnienie to "raz dwa trzy cztery"...).

Zapoznaj się z listą wprowadzonych zmian. Mimo niewielkich różnic w numeracji staram się usuwać wszelkie zgłaszane mi utrudnienia lub nieprawidłowości (ale też bez przesady!) :-)

LonngerM   11 #3 11.03.2014 00:52

Super z tą darmową wersją, ale i tak lepiej by było, gdyby darmowa wersja była ograniczona do pewnej ilości reguł, a płatna trochę tańsza. Bo jednak sobie liczy.

Super wpisy:)

alucosoftware   7 #4 11.03.2014 01:12

@LonngerM
Dziękuję :)

W niedalekiej przyszłości Spikit zostanie rozdzielony na wersję profesjonalną (tę, którą mamy obecnie) i wersję dla mniej wymagających użytkowników (tańsza, bo ograniczona ilością predefiniowanych komend, z jednostronicową instrukcją). Jak będzie wyglądała wersja uproszczona możesz zobaczyć na początku tego filmu (> 1 min): http://www.youtube.com/watch?v=3YrT4-6tA2k

Powinna przypaść do gustu szerszej publiczności ;)

Niestety nie mogę podać konkretnej daty tego wydarzenia, ponieważ ciągle walczę z myślami "a co jeśli...". Wszystko musi działać tak, bym mógł zapewnić użytkownikom długie wsparcie i bezproblemowy rozwój aplikacji, niezależnie od tego w jakiej cenie otrzymają oprogramowanie.

  #5 11.03.2014 13:53

kilka pytań do autora:
czy mam rozumieć, że w następnym odcinku opiszesz dokładnie poszczególne akcje?
rozumiem, ze to co linkujesz wyzej to juz dzualajacy prototyp, więc czy bedzie mozna w uboższej wersji też pisać samemu komendy?

alucosoftware   7 #6 11.03.2014 17:02

@up
Tak, w kolejnej części kursu od podstaw utworzymy funkcjonalny zestaw poleceń w oparciu o dostępne w programie typy akcji (Predefiniowana, Tekst, Sekwencja klawiszy, URI, !Bang).

Jeśli zaś chodzi o film ukazujący Spikit w wersji z lekkim interfejsem, to taki program już istnieje i jest równie stabilny, co udostępniona w sieci wersja dla zaawansowanych użytkowników. Nie będzie w niej możliwe definiowanie własnej Reguły głosowej (przynajmniej nie w tej chwili...). Takie jest bowiem główne założenie lekkiej wersji. Ma ona oferować dostęp do listy najczęściej wykorzystywanych komend, z możliwością pobrania z serwera zawsze aktualnego zestawu poleceń.

arlid   14 #7 15.03.2014 19:42

Podsunąłeś mi ciekawy pomysł - takie słuchawki są do kupienia? :P Świetnie jest widzieć jak program się rozwija (patrząc nawet na swoja recenzję - widać sporo zmian i to cieszy :)) i rozrasta - super, że mimo tego, iż po instalacji możemy zajrzeć samodzielnie do podręcznika (świetnie napisanego) robisz dodatkowy kurs. Można życzyć tylko dalszych sukcesów :)

alucosoftware   7 #8 15.03.2014 23:02

Google: classic telephone handset :D

Dziękuję za pozytywny komentarz. Choć mógłbym napisać to wszystko w oficjalnej dokumentacji, musiałbym niemiłosiernie zwiększyć jej objętość. Poza tym, na blogu można dodać trochę luźnych sformułowań. Instrukcja to jednak nie to samo :)

Kolejne wpisy (mam nadzieję) będą już bardziej ciekawe.