IVONA – polski syntezator mowy, który podbił świat. Opowieść o tym, jak to się stało

W XXI wieku w naszym kraju powstało wiele wartościowych programów komputerowych. Niewątpliwie należał do nich syntezator mowy IVONA, który zyskał sporą popularność również za granicą. Jednak pomimo międzynarodowego sukcesu ogólnie mało się u nas wie o tym programie. Toteż wiele osób w Polsce nie jest nawet świadoma, że był dziełem rodzimych twórców. Dlatego czym prędzej postanowiłem opisać historię kultowego już syntezatora mowy.

Geneza, czyli jak sprawić, żeby telefony komórkowe przemówiły po ludzku

Cofnijmy się zatem wehikułem czasu o dwie dekady, kiedy na Politechnice Gdańskiej zakumplowali dwaj studenci informatyki — Łukasz Osowski i Michał Kaszczuk. Obaj mieli świetne oceny na studiach i zewsząd robili wrażenie innowacyjnością myślenia. Nie dziwne więc, iż podczas wielogodzinnych rozmów obmyślili, aby stworzyć syntezator mowy, który będzie zdecydowanie lepszy od tych obecnych na rynku. Przyznacie, że w czasach gdy ciągle spora rzesza ludzi w Polsce nie miała komputera lub telefonu komórkowego, pomysł ten wydawał się mało realny do zrealizowania. Ale oni byli nieugięci w swoim postanowieniu i w 2001 roku założyli firmę Ivo Software, która już po kilku miesiącach działalności wypuściła na rynek pierwszy produkt — Spiker 1.0.

Od tego programu wszystko się zaczęło

Choć dzisiaj syntezator mowy Spiker jest zapomniany, to w pierwszych latach XXI wieku okazał się sukcesem, albowiem z powodzeniem został wykorzystany w telefonach komórkowych oraz do udźwiękowienia stanowisk komputerowych. Program ten był bardzo ceniony przez osoby niewidome i słabowidzące. Co ciekawe został wydany w aż pięciu wersjach, z których każda zebrała pochlebne opinie. Lecz największym sukcesem programu okazała się jego mobilna odsłona — Speaker Mobile. Ivo Software otrzymała za nią w dniu 23 maja 2004 r. medal „Gdynia bez Barier”, dzięki czemu stała się bardziej znaną marką w całym kraju. To spowodowało większą liczbę zamówień produktów firmy, przyczyniając się do powiększenia jej przychodów ze sprzedaży. A jak wiadomo, kiedy ma się odpowiednią kasę, wtedy można realizować najambitniejsze cele. Tak też było w przypadku działalności Osowskiego i Kaszczuka, którym odpowiedni przypływ gotówki posłużył do realizacji największego ich dzieła. Rzecz jasna chodzi tutaj o syntezator mowy IVONA. 

Problemy z miejscówką i stworzenie IVONY

Osowski i Kaszczuk, aby rozpocząć prace nad tym programem, musieli jednak załatwić pewną nurtującą sprawę. Chodziło tu o „partyzanckie” umiejscowienie prowadzonej firmy, gdyż znajdowała się w akademiku, w którym natenczas mieszkali. Osowski z Kaszczukiem zdawali sobie sprawę, że na dłuższą metę działalność Ivo Software w tak nieprofesjonalnych warunkach nie jest możliwe. Postanowili więc zmienić ten stan rzeczy i wobec tego:

Z profesjonalnym biznesplanem zgłosili projekt do konkursu „Gdyński Biznesplan”, a rok później firma miała już siedzibę na terenie Pomorskiego Parku Naukowo-Technologicznego, gdzie stawki za wynajem biur były niższe niż rynkowe. Było to jedyne zewnętrzne wsparcie, na jakie mogła wtedy liczyć. – przyznał po latach Łukasz Osowski na łamach portalu interaktywnie.com

Tak więc Ivo Software 18 lat temu działała już w Pomorskim Parku Naukowo-Technologicznym, gdzie standard pracy był na dużo wyższym poziomie. Zatem dzięki zmianie miejscówki duet liderów firmy w 2003 r. mógł wreszcie w spokoju zacząć pracować nad syntezatorem mowy IVONA. Łukasz Osowski w wywiadzie dla interaktywnie.com przyznał, że:

- Największym wyzwaniem na początku, był „rozwój organiczny”, czyli tworzenie i rozwijanie tak zaawansowanej technologii z bieżących wpływów firmy, bez zewnętrznych funduszy. 

Syntezator mowy IVONA z samego założenia był komercyjnym programem i wystartował ze swoją pierwszą wersją w lutym 2005 roku. Fakty są takie, że z miejsca stał się hitem, przemówił bowiem dużo lepszym głosem niż jego poprzednik Spiker oraz obecna na rynku konkurencja. Nie było to dziełem przypadku, ponieważ od samego początku pozwalał na automatyczne przekształcanie tekstu do mowy o naturalnym, ludzkim brzmieniu. Działo się tak, ponieważ przed wypowiedzią analizował podany tekst, interpretując go przy zastosowaniu m.in. algorytmów sztucznej inteligencji. Do tego każda wypowiedź na nim mogła być odsłuchana „na żywo” lub zapisana w pliku dźwiękowym, co naówczas było swoistym novum. 

Wielkie docenienie w kraju i za granicą

Nie dziwne więc, że na syntezator mowy IVONA spadł deszcz nagród, na czele z otrzymaniem prestiżowej nagrody Traveler w kategorii „Odkrycie Roku 2006” przyznaną przez National Geographic. Jednakże najważniejszym sukcesem programu w tym czasie okazały się zwycięstwa w międzynarodowych konkursach branżowych Blizzard Challenge 2006, 2007 i 2009, na których pokonał m.in. IBM, Microsoft i Nokię. Wtedy to syntezator mowy IVONA oficjalnie stał się najlepszy na świecie i coraz więcej zagranicznych marek chciało skorzystać z jego usług. Jako pierwsze do Ivo Software zgłosiły się jednak PKP potrzebujące syntetyzowanego głosu do pociągów oraz warszawski ZTM do wygłaszania komunikatów w metrze.

Następnie głos syntezatora mowy IVONA wykorzystało polskie wojsko do systemów symulacyjnych, a także producenci systemów telefonicznych oraz osoby niewidome i niedowidzące. Zresztą Ivo Software stworzyło dla nich specjalną wersję rehabilitacyjną programu, która była zalecana do użytku szkolnego przez ówczesnego Ministra ds. oświaty i wychowania.

Tendencja ta w ostatecznym rozrachunku spowodowała, iż przychody firmy w kilka lat podniosły się w rodzimej walucie ze stu tysięcy do kilku milionów. To zaś najlepiej świadczy jak dużym pobytem cieszyły się w naszym kraju usługi głosowe programu.

Stanie się topowym narzędziem polskiego internetu

W Polsce w tym czasie syntezator mowy IVONA był jednak najczęściej użytkowany bezpłatnie przez prywatne osoby do youtubowych przeróbek. Dzięki temu powstało tysiące prześmiewczych filmików, na których jego syntetyczny głos zamieniał wypowiedzi wrabianych ludzi albo postaci z talk-show, filmów czy seriali, np. Tadeusz Sznuk z programu „Jeden z dziesięciu” lub bohaterowie „Władcy Pierścieni” czy „13 posterunku”. Jak wiadomo, filmiki te zawierają najczęściej wulgarną treść i nie reprezentują najlepszej jakości nagranego głosu bowiem w większości powstały na demonstracyjnej wersji programu. Tu jednak głównie chodziło o wykazanie pomysłowością i inwencją twórczą. Zwłaszcza widać, to po filmikach gdzie wkręcano nieznajome osoby, gdyż okazały się najbardziej prześmiewcze w swojej formie. Najlepszym tego przykładem jest filmik gdzie nastolatkowie syntezatorem mowy IVONA zamawiają pizzę, który przeszedł już do historii polskiego internetu.

Zresztą nie tylko ten jeden, bo na kanałach YouTube'owych jest wiele tego typu produkcji co mają miliony wyświetleń. Owe filmiki w zdecydowanej większością brzmią męskim głosem, który został nazwany „Jacek”. Imię to nie jest przypadkowe, gdyż owego głosu użyczył aktor Jacek Labijak, który z racji niecenzuralnej treści „ivonowych” przeróbek stał się rekordzistą pod względem wypowiedzianych przekleństw na YouTube.

Program, bez którego nie byłoby lektora IVO

W czerwcu 2008 r. Ivo Software wypuściło na rynek program Expressivo (późniejsza nazwa IVONA Reader), który zyskał sporą popularność dzięki innowacyjnej technologii syntezatora mowy IVONA. To spowodowało, że do końca 2015 roku był wykorzystywany jako lektor podczas odsłuchiwania informacji ze stron internetowych, tworzenia audiobooków lub pracy z popularnymi aplikacjami, tj. MS Outlook, Internet Explorer, Mozilla Thunderbird czy Skype. Program ponadto świetnie sprawdzał się do nauki języków obcych, i to nie tylko na komputerze, ale także na przenośnych odtwarzaczach MP3. Aczkolwiek najczęściej służył jako brzmiący mechanicznie lektor do pirackich filmów IVO, a były nimi głównie produkcje nagrane w kinie, które jako pierwsze trafiały do ściągnięcia np. na Darkwarez lub Chomikuj. Proceder ten zaś trwał na poważnie przez dobre kilka lat.

Zagraniczna kariera syntezatora mowy IVONA

Osowski z Kaszczukiem po jakimś czasie zaczęli myśleć o robieniu interesów poza Polską. Dlatego też w 2007 roku pojawiła się Jennifer — pierwszy anglojęzyczny głos na syntezatorze. W następnych latach ekspansja rynków zagranicznych przez Ivo Software ze swoich sztandarowym produktem szła wręcz w tempie ekspresowym. Rok 2009 firma zainicjowała rozpoczęcie współpracy z największą angielską organizacją charytatywną Royal National Institute of Blind People. Natomiast w 2010 r. wykorzystała funkcje syntezatora mowy IVONA w przełomowym modelu usługowym Software as a Service (SaaS) oraz po dwóch latach przygotowań zaczęła go sprzedawać w USA. Do tego czasu syntezator mowy IVONA oferował 44 głosy w 17 językach, które potrafiły przeczytać dowolny tekst pisany, w tym po rumuńsku, walijsku lub po kaszubsku. Jednak najpopularniejszymi głosami programu były polskojęzyczna Maja oraz anglojęzyczny Eric.

Nowa nazwa i całkowita kosmopolityzacja działalności

Rok 2011 był bardzo ważny dla firmy Osowskiego i Kaszczuka. Ivo Software bowiem w trakcie jego trwania wprowadziła do sprzedaży nowatorską aplikację Ivona Text-To-Speech HQ, dzięki której głos syntezatora mowy IVONA stał się dostępny za darmo w sklepie Android Market. Ponadto jej najważniejszy produkt został wybrany najdokładniejszym komercyjnym syntezatorem mowy w raporcie niezależnej amerykańskiej organizacji Voice Information Associates, wygrawszy z rozwiązaniami m.in. Microsoftu, AT&T, Nuance czy Loquendo. Zatem gdańska firma w owym czasie powzięła nowe działanie i odniosła wielki międzynarodowy sukces. Jednak najważniejszym wydarzeniem w 2011 roku była dla niej zmiana nazwy na IVONA Software, by bardziej kojarzyć się z głównym produktem, który był coraz bardziej znany na świecie. Fakty są takie, że już wtedy działalność firmy Osowskiego i Kaszczuka miała typowo międzynarodowy charakter i 70% jej przychodów pochodziło ze sprzedaży na rynkach zagranicznych. Stało się tak, ponieważ z powodzeniem działała na rynku amerykańskim, brytyjskim, niemieckim, hiszpańskim i kilkunastu innych równie cenionych. IVONA Software mogła w owym czasie pochwalić się zacnymi klientami, do których należeli m.in. producent telefonów komórkowych BlackBerry lub słynna księgarnia elektroniczna Barnes&Noble. Jak wiadomo cały ten biznes kręcił się dzięki nowatorskiemu syntezatorowi mowy IVONA, którym zaczął się na poważnie interesować amerykański Amazon, chcący wykorzystać jego technologię w projekcie Kindle'a.

IVONA trafia w ręce Amazona

O tyle to istotne, iż w styczniu 2013 roku amerykański gigant kupił IVONA Software. Jak wiadomo powodem tej transakcji była nowatorskość produktów polskiej firmy. Zresztą najlepiej powody tego przejęcia przedstawił Dave Limp, starszy Vice President, Amazon Kindle:

Opracowana przez IVONA Software wyjątkowa technologia text-to-speech wyróżnia się naturalnością, dokładnością wymowy oraz łatwością wykorzystania. Jest ona kluczowym elementem funkcji zwiększających dostępność Kindle Fire, w tym Text-to-Speech, Voice Guide, czy Explore by Touch. - Limp dodał przy tym - Zespół IVONA podziela naszą pasję do innowacji i koncentrację na potrzebach klienta. Liczymy na dalszy rozwój i dostarczanie świetnych produktów pozwalających na budowę najwyższej klasy rozwiązań głosowych klientom na całym świecie.

Ów cytat okazał się proroczy, jednak musiało dojść do sporych zmian, aby zrealizować jego przesłanie. Dziś firma nie nazywa się już IVONA Software, lecz Amazon Development Center Poland. Jej najważniejszy produkt syntezator mowy IVONA też zmienił kilka lat temu nazwę na Amazon Polly. Przez ten czas program ten przeszedł wiele udoskonaleń i oprócz wykorzystania przez prywatnych klientów jest użytkowany przez firmy do tworzenia niepowtarzalnych głosów na własny użytek lub klienta.

Syntezator mowy Polly ciągle obsługuje polski głos dostępny w czterech wersja: Ewa, Maja, Jacek i Jan. Ponadto firma do tej pory mieści się w Gdańsku i zatrudnia polski zespół pracowników. Jednakże przy bliższym zapoznaniu można odnieść wrażenie, że Amazon Development Center Poland i Amazon Polly to typowo kosmopolityczne twory, o czym najlepiej świadczy, że na ich stronach internetowych nie ma nawet polskiej wersji językowej. Zresztą już tam nie pracuje Łukasz Osowski, który był współzałożycielem firmy i miał wielki wpływ na rozwój syntezatora mowy IVONA.

Po nastaniu tych zmian nie można już kupić wersji pudełkowej programu, a tak kojarzy się tysiącom osób, które nabyły go legalnie. Dla zdecydowanej większości z nich Amazon Polly nigdy nie zastąpi syntezatora mowy IVONA i nie radują się tym, że na jego bazie powstała znana wirtualna asystentka Amazona — Alexa. Zresztą poniższy cytat sardonicznie obrazuje ten stan rzeczy:

Myślę, że polscy użytkownicy Ivony są zachwyceni jak im teraz ją Alexa w Polsce zastępuje ;) Tak, wiem o istnieniu Amazon Polly w języku polskim. Jednak dla szarych użytkowników to nie jest łatwo dostępny produkt. - jkolonko, doświadczony użytkownik portalu dobreprogramy.pl

Reasumując 

Jak wiadomo wszystko co wiążę się z nowoczesną technologią musi iść z duchem postępu. Tak też się stało w przypadku polskiego syntezatora mowy IVONA, którego wielka nowatorskość spowodowała, że upomniał się o niego amerykański gigant technologiczny. Szkoda tylko, że Amazon Polly, który go zastąpił to produkt bardziej dedykowany firmom niż prywatnym użytkownikom. Tak czy inaczej, wypada docenić, że wymyślony w naszym kraju program odniósł tak globalny sukces i decyduje teraz o sile potężnego Amazona. A Wy jak z perspektywy czasu oceniacie syntezator mowy IVONA? Bo ja również uważam, że dla zwyczajnego użytkownika był dużo bardziej przystępny niż jego „amazonowski” następca.