Microsoft zakasa rękawy. Model syntaktyczny uleczy bolączki maszynowych tłumaczy

Po trwających od miesięcy testach, Skype wreszcie zdecydował się udostępnić użytkownikom swój Translator. Zarówno mechanizm, jak i skuteczność usługi jest jednym z najbardziej zaawansowanych implementacji dużych zbiorów danych i głębokiego uczenia w przypadku analizowania języka naturalnego. Dzięki temu od dziś z tłumaczeń symultanicznych mogą korzystać miliony osób na całym świecie.

Maciej Olanicki

10 października 2015, 22:21

O tym, jak funkcjonuje Skype Translator pisaliśmy już przy okazji testów. Gwoli przypomnienia – program wykorzystuje, w przeciwieństwie do Tłumacza Google, oprócz modelu statystycznego tłumaczenia, także syntaktyczny.

Jest to o tyle istotne, że jeden z największych autorytetów współczesnego językoznawstwa Noam Chomsky, profesor na Massachusetts Institute of Technology zajmujący się między innymi także lingwistyką komputerową, a także zdeklarowany anarchosyndykalista, jednoznacznie podkreśla wyższość syntaktyki nad statystyką.Wynika to z wystawienia modelu statystycznego na próbę logiczną, semantyczną czyli znaczeniową. W momencie stworzenia nieistniejącego wcześniej zdania, które jest poprawnie gramatycznie, ale całkiem bezsensowne, oraz zdania zawierającego błędy gramatyczne przy zachowaniu sensu, w modelu statystycznym oba wypowiedzenia będą miały taką samą klasyfikację. To zaś będzie skutkować zmniejszoną skutecznością tłumaczeń maszynowych. W teorii Chomsky'ego Skype Translator powinien być zatem skuteczniejszy niż konkurencja wykorzystująca statystykę.

Nazwisko Chomsky'ego pojawia się w także w kontekście niedawnych badań, jakie przeprowadzono na MIT. Jak to często się zdarza w ostatnich miesiącach, do badań języka zaangażowano tam duże zbiory danych zawierających wypowiedzenia w języku naturalnym. Cel był szczytny – udowodnić, że jedna z najważniejszych teorii naukowca, nazywana universal grammar, jest prawdziwa.

Universal grammar, wbrew temu co można było wyczytać w zachodniej prasie w momencie pierwszych wzmianek o wnioskach z badań MIT, nie odnosi się do stworzonego syntetycznie systemu gramatycznego, jednego by wszystkie zgromadzić i w ciemności związać. Chodzi mianowicie o synchroniczne badania wielu języków i próby odnalezienia w ich systemach gramatycznych cechy wspólnej. Choćby jednej.

Teoria, oczywiście w ogromnym uproszczeniu, zakłada możliwość występowania podobieństw we wszystkich językach – z reguły w jej poszukiwaniach dokonuje się wspomnianych badań synchronicznych, czyli obejmujących punktowy stan języka w czasie. Udział Chomsky'ego w budowie universal grammar polega przede wszystkim na założeniu ograniczeń kognitywnych – uważa on, że cecha wspólna istnieje, gdyż człowiek jest zdolny do posługiwania się ograniczoną liczbą reguł podczas opracowywania systemów gramatycznych. Niezależnie od tego, jak sensownie by to brzmiało, przez lata brakowało możliwości zweryfikowania prawdziwości teorii z powodów czysto logistycznych. Analiza setek tysięcy wypowiedzeń w dziesiątkach języków (mniej więcej taka próba mogłaby w ogóle stanowić podstawę do wyciągania wniosków) była dotychczas w zasadzie niewykonalna.

Z pomocą przyszła big data. Naukowcy z MIT zdali się mieć pomysł na to, co może stanowić UG. W związku z tym dokonali oni zautomatyzowanej analizy dużych zbiorów danych ogromnej liczby wypowiedzeń w trzydziestu siedmiu językach zwracając uwagę na enigmatycznie brzmiący czynnik DLM.

DLM, czyli Dependency Length Minimisation. W większości używanych przez duże grupy ludności języków zauważa się, że im mniejsza jest odległość między podmiotem a orzeczeniem w zdaniu, tym bardziej jest ono komunikatywne, a zatem poprawne. Minimalizacja Długości Zależności może być oczywiście wariantywna, co dopuszcza różne szyki zdania, nie wpływa to jednak na prawdziwość stwierdzenia, że im mniejsza odległość (a zatem większe DLM), tym wypowiedzenie jest, w dużym uproszczeniu, jakościowo lepsze.

MIT stworzyło ogromną bazę poprawnych, zrozumiałych wypowiedzeń w 37 używanych współcześnie językach. W każdym z nich oznaczone było orzeczenie i podmiot, co po przeanalizowaniu dużego zbioru danych dało możliwość wyznaczenia średniego DLM w bazie. Następnie w każdej jednostce szyk wyrazów został losowo zmieniony, o zachowaniu znaczenia nie była zatem raczej mowy.

Po porównaniu średniego DLM z wypowiedzeń poprawnych i losowych, okazało się, że odległość podmiotu od orzeczenia jest w przypadku pierwszych zawsze większa. Wniosek był dla naukowców z MIT jednoznaczny: cechą wspólną wszystkich wziętych pod uwagę języków było to, że odległość podmiotu od orzeczenia jest zawsze mniejsza niż losowa. To zaś pozwoliło im wysunąć kandydata na universal grammar.

Dość lingwistycznej teorii, mowa bowiem o cesze języka, która może mieć niebagatelny wpływ na wszystkie maszynowe tłumaczenia, z których korzystamy na co dzień, na czele ze wspomnianym Skype Translatorem. Jeżeli bowiem zarówno teoria Chomsky'ego, jak i wnioski analizy MIT są prawdziwe, to – z uwzględnieniem syntaktycznego modelu tłumaczenia wykorzystywanego przez Microsoft – efekty badań mogą istotnie podwyższyć jakość automatycznych przekładów.

Oczywiście wiele wody upłynie, zanim w wykorzystywanym przez przeciętnego użytkownika oprogramowaniu efekty postrzegania DLM jako universal grammar będą miały wpływ na zauważalną poprawę jakości tłumaczeń. Mogą natomiast dość istotnie wpłynąć na popularyzację, faworyzowanego przez Chomsky'ego, syntaktycznego modelu tłumaczeń, czego przykładem, ze swoim nieoczywistym pomysłem na łączenie statystyki i syntaktyki, może być między innymi właśnie Skype Translator.

Maciej Olanicki