Microsoft zakasa rękawy. Model syntaktyczny uleczy bolączki maszynowych tłumaczy

Microsoft zakasa rękawy. Model syntaktyczny uleczy bolączki maszynowych tłumaczy10.10.2015 22:21

Po trwających od miesięcy testach, Skype wreszcie zdecydował się udostępnić użytkownikom swój Translator. Zarówno mechanizm, jak i skuteczność usługi jest jednym z najbardziej zaawansowanych implementacji dużych zbiorów danych i głębokiego uczenia w przypadku analizowania języka naturalnego. Dzięki temu od dziś z tłumaczeń symultanicznych mogą korzystać miliony osób na całym świecie.

O tym, jak funkcjonuje Skype Translator pisaliśmy już przy okazji testów. Gwoli przypomnienia – program wykorzystuje, w przeciwieństwie do Tłumacza Google, oprócz modelu statystycznego tłumaczenia, także syntaktyczny.

Jest to o tyle istotne, że jeden z największych autorytetów współczesnego językoznawstwa Noam Chomsky, profesor na Massachusetts Institute of Technology zajmujący się między innymi także lingwistyką komputerową, a także zdeklarowany anarchosyndykalista, jednoznacznie podkreśla wyższość syntaktyki nad statystyką.Wynika to z wystawienia modelu statystycznego na próbę logiczną, semantyczną czyli znaczeniową. W momencie stworzenia nieistniejącego wcześniej zdania, które jest poprawnie gramatycznie, ale całkiem bezsensowne, oraz zdania zawierającego błędy gramatyczne przy zachowaniu sensu, w modelu statystycznym oba wypowiedzenia będą miały taką samą klasyfikację. To zaś będzie skutkować zmniejszoną skutecznością tłumaczeń maszynowych. W teorii Chomsky'ego Skype Translator powinien być zatem skuteczniejszy niż konkurencja wykorzystująca statystykę.

Nazwisko Chomsky'ego pojawia się w także w kontekście niedawnych badań, jakie przeprowadzono na MIT. Jak to często się zdarza w ostatnich miesiącach, do badań języka zaangażowano tam duże zbiory danych zawierających wypowiedzenia w języku naturalnym. Cel był szczytny – udowodnić, że jedna z najważniejszych teorii naukowca, nazywana universal grammar, jest prawdziwa.

Universal grammar, wbrew temu co można było wyczytać w zachodniej prasie w momencie pierwszych wzmianek o wnioskach z badań MIT, nie odnosi się do stworzonego syntetycznie systemu gramatycznego, jednego by wszystkie zgromadzić i w ciemności związać. Chodzi mianowicie o synchroniczne badania wielu języków i próby odnalezienia w ich systemach gramatycznych cechy wspólnej. Choćby jednej.

Teoria, oczywiście w ogromnym uproszczeniu, zakłada możliwość występowania podobieństw we wszystkich językach – z reguły w jej poszukiwaniach dokonuje się wspomnianych badań synchronicznych, czyli obejmujących punktowy stan języka w czasie. Udział Chomsky'ego w budowie universal grammar polega przede wszystkim na założeniu ograniczeń kognitywnych – uważa on, że cecha wspólna istnieje, gdyż człowiek jest zdolny do posługiwania się ograniczoną liczbą reguł podczas opracowywania systemów gramatycznych. Niezależnie od tego, jak sensownie by to brzmiało, przez lata brakowało możliwości zweryfikowania prawdziwości teorii z powodów czysto logistycznych. Analiza setek tysięcy wypowiedzeń w dziesiątkach języków (mniej więcej taka próba mogłaby w ogóle stanowić podstawę do wyciągania wniosków) była dotychczas w zasadzie niewykonalna.

Z pomocą przyszła big data. Naukowcy z MIT zdali się mieć pomysł na to, co może stanowić UG. W związku z tym dokonali oni zautomatyzowanej analizy dużych zbiorów danych ogromnej liczby wypowiedzeń w trzydziestu siedmiu językach zwracając uwagę na enigmatycznie brzmiący czynnik DLM.

DLM, czyli Dependency Length Minimisation. W większości używanych przez duże grupy ludności języków zauważa się, że im mniejsza jest odległość między podmiotem a orzeczeniem w zdaniu, tym bardziej jest ono komunikatywne, a zatem poprawne. Minimalizacja Długości Zależności może być oczywiście wariantywna, co dopuszcza różne szyki zdania, nie wpływa to jednak na prawdziwość stwierdzenia, że im mniejsza odległość (a zatem większe DLM), tym wypowiedzenie jest, w dużym uproszczeniu, jakościowo lepsze.

MIT stworzyło ogromną bazę poprawnych, zrozumiałych wypowiedzeń w 37 używanych współcześnie językach. W każdym z nich oznaczone było orzeczenie i podmiot, co po przeanalizowaniu dużego zbioru danych dało możliwość wyznaczenia średniego DLM w bazie. Następnie w każdej jednostce szyk wyrazów został losowo zmieniony, o zachowaniu znaczenia nie była zatem raczej mowy.

Po porównaniu średniego DLM z wypowiedzeń poprawnych i losowych, okazało się, że odległość podmiotu od orzeczenia jest w przypadku pierwszych zawsze większa. Wniosek był dla naukowców z MIT jednoznaczny: cechą wspólną wszystkich wziętych pod uwagę języków było to, że odległość podmiotu od orzeczenia jest zawsze mniejsza niż losowa. To zaś pozwoliło im wysunąć kandydata na universal grammar.

Dość lingwistycznej teorii, mowa bowiem o cesze języka, która może mieć niebagatelny wpływ na wszystkie maszynowe tłumaczenia, z których korzystamy na co dzień, na czele ze wspomnianym Skype Translatorem. Jeżeli bowiem zarówno teoria Chomsky'ego, jak i wnioski analizy MIT są prawdziwe, to – z uwzględnieniem syntaktycznego modelu tłumaczenia wykorzystywanego przez Microsoft – efekty badań mogą istotnie podwyższyć jakość automatycznych przekładów.

Oczywiście wiele wody upłynie, zanim w wykorzystywanym przez przeciętnego użytkownika oprogramowaniu efekty postrzegania DLM jako universal grammar będą miały wpływ na zauważalną poprawę jakości tłumaczeń. Mogą natomiast dość istotnie wpłynąć na popularyzację, faworyzowanego przez Chomsky'ego, syntaktycznego modelu tłumaczeń, czego przykładem, ze swoim nieoczywistym pomysłem na łączenie statystyki i syntaktyki, może być między innymi właśnie Skype Translator.

Szanowna Użytkowniczko! Szanowny Użytkowniku!
×
Aby dalej móc dostarczać coraz lepsze materiały redakcyjne i udostępniać coraz lepsze usługi, potrzebujemy zgody na dopasowanie treści marketingowych do Twojego zachowania. Twoje dane są u nas bezpieczne, a zgodę możesz wycofać w każdej chwili na podstronie polityka prywatności.

Kliknij "PRZECHODZĘ DO SERWISU" lub na symbol "X" w górnym rogu tej planszy, jeżeli zgadzasz się na przetwarzanie przez Wirtualną Polskę i naszych Zaufanych Partnerów Twoich danych osobowych, zbieranych w ramach korzystania przez Ciebie z usług, portali i serwisów internetowych Wirtualnej Polski (w tym danych zapisywanych w plikach cookies) w celach marketingowych realizowanych na zlecenie naszych Zaufanych Partnerów. Jeśli nie zgadzasz się na przetwarzanie Twoich danych osobowych skorzystaj z ustawień w polityce prywatności. Zgoda jest dobrowolna i możesz ją w dowolnym momencie wycofać zmieniając ustawienia w polityce prywatności (w której znajdziesz odpowiedzi na wszystkie pytania związane z przetwarzaniem Twoich danych osobowych).

Od 25 maja 2018 roku obowiązuje Rozporządzenie Parlamentu Europejskiego i Rady (UE) 2016/679 (określane jako "RODO"). W związku z tym chcielibyśmy poinformować o przetwarzaniu Twoich danych oraz zasadach, na jakich odbywa się to po dniu 25 maja 2018 roku.

Kto będzie administratorem Twoich danych?

Administratorami Twoich danych będzie Wirtualna Polska Media Spółka Akcyjna z siedzibą w Warszawie, oraz pozostałe spółki z grupy Wirtualna Polska, jak również nasi Zaufani Partnerzy, z którymi stale współpracujemy. Szczegółowe informacje dotyczące administratorów znajdują się w polityce prywatności.

O jakich danych mówimy?

Chodzi o dane osobowe, które są zbierane w ramach korzystania przez Ciebie z naszych usług, portali i serwisów internetowych udostępnianych przez Wirtualną Polskę, w tym zapisywanych w plikach cookies, które są instalowane na naszych stronach przez Wirtualną Polskę oraz naszych Zaufanych Partnerów.

Dlaczego chcemy przetwarzać Twoje dane?

Przetwarzamy je dostarczać coraz lepsze materiały redakcyjne, dopasować ich tematykę do Twoich zainteresowań, tworzyć portale i serwisy internetowe, z których będziesz korzystać z przyjemnością, zapewniać większe bezpieczeństwo usług, udoskonalać nasze usługi i maksymalnie dopasować je do Twoich zainteresowań, pokazywać reklamy dopasowane do Twoich potrzeb. Szczegółowe informacje dotyczące celów przetwarzania Twoich danych znajdują się w polityce prywatności.

Komu możemy przekazać dane?

Twoje dane możemy przekazywać podmiotom przetwarzającym je na nasze zlecenie oraz podmiotom uprawnionym do uzyskania danych na podstawie obowiązującego prawa – oczywiście tylko, gdy wystąpią z żądaniem w oparciu o stosowną podstawę prawną.

Jakie masz prawa w stosunku do Twoich danych?

Masz prawo żądania dostępu, sprostowania, usunięcia lub ograniczenia przetwarzania danych. Możesz wycofać zgodę na przetwarzanie, zgłosić sprzeciw oraz skorzystać z innych praw wymienionych szczegółowo w polityce prywatności.

Jakie są podstawy prawne przetwarzania Twoich danych?

Podstawą prawną przetwarzania Twoich danych w celu świadczenia usług jest niezbędność do wykonania umów o ich świadczenie (tymi umowami są zazwyczaj regulaminy). Podstawą prawną przetwarzania danych w celu pomiarów statystycznych i marketingu własnego administratorów jest tzw. uzasadniony interes administratora. Przetwarzanie Twoich danych w celach marketingowych realizowanych przez Wirtualną Polskę na zlecenie Zaufanych Partnerów i bezpośrednio przez Zaufanych Partnerów będzie odbywać się na podstawie Twojej dobrowolnej zgody.