r   e   k   l   a   m   a
r   e   k   l   a   m   a

Tłumaczowi Google zagroziła własna popularność, jakość przekładów może się pogorszyć

Strona główna AktualnościINTERNET

Tłumacz Google (Google Translate) stał się najpopularniejszą w Sieci usługą do maszynowego tłumaczenia – i to pomimo zastrzeżeń co do jakości przekładów. Darmowość, wygodny interfejs, pełna integracja z Google Chrome, a także możliwość dynamicznego generowania tłumaczeń dla stron WWW poprzez API usługi najwyraźniej przeważyły. Tłumacz może jednak niebawem stać się ofiarą swojej własnej popularności: grozi mu zatrucie własnymi tłumaczeniami.

Franz Josef Och, twórca oprogramowania stojącego za Tłumaczem, zapewne nie spodziewał się takiego obrotu sprawy. Stworzona przez niego usługa, w przeciwieństwie do większości innych systemów maszynowego tłumaczenia, korzysta z analizy statystycznej, a nie analizy na bazie reguł gramatycznych. W metodzie tej do stworzenia przekładu wykorzystuje się modele statystyczne, budowane na podstawie analizy korpusu równoległego danej pary języków (dużego zbioru tekstów równoległych). Zastosowanie wnioskowań bayesowskich pozwala następnie na znalezienie takich ciągów znaków dla języka wynikowego, które z najwyższym prawdopodobieństwem stanowią przekład języka wejściowego.

Wszystko byłoby dobrze, gdyby korpusy równoległe dla danej pary były wysokiej jakości, a tłumaczenia zachodziły bezpośrednio między nimi. Tak jednak nie jest. Tłumacz Google stosuje przekłady pośrednie, najpierw tłumacząc język źródłowy na angielski, a potem tłumacząc z angielskiego na język wynikowy. Taki wybór projektowy, podyktowany zapewne pochodzeniem Google'a, nie był najszczęśliwszy – pozbawiony fleksji, mało precyzyjny gramatycznie angielski, notorycznie gubi subtelności języków źródłowych. Jeszcze gorzej jest w wypadku języków, dla których nie ma bezpośredniego przekładu na angielski – w wypadku np. ukraińskiego Tłumacz Google dokonuje tłumaczenia najpierw na rosyjski, potem z rosyjskiego na angielski i z angielskiego na język wynikowy (np. polski). Wynik wówczas może przypominać zabawę w głuchy telefon.

r   e   k   l   a   m   a

Obecnie korpusy równoległych języków tworzone są przez Google w sposób zautomatyzowany, wykorzystując do tego zawartość samego Internetu. Wyszukiwarka indeksując wielojęzyczne witryny zestawia ze sobą dokumenty o tej samej treści w różnych językach, by przekazać je później analizie statystycznej. Wzrost liczby wielojęzycznych witryn w Sieci (a szczególnie publikacje międzynarodowych organizacji, takich jak ONZ czy UE) pozwoliły zbudować korpusy ogromnych rozmiarów, więc z czasem optymalizacja algorytmów pozwoliła osiągnąć niezły poziom maszynowego tłumaczenia dla wielu par języków europejskich do angielskiego (i vice versa), niekiedy nawet lepszego niż w wypadku systemów tłumaczących poprzez analizę reguł gramatycznych.

Takie zastosowanie WWW do zasilania korpusu tekstów nie uwzględniło jednak jednej rzeczy. Niezła skuteczność Google Translate sprawiła, że coraz więcej witryn w Sieci zaczęło stosować usługę tę do maszynowego tłumaczenia swoich stron WWW i na jego podstawie uruchamiać nowe wersje językowe. Te nowe wersje trafiały do indeksu Google'a, więc rychło ich zawartość powiększała korpus równoległych języków. To zaś prowadziło do sytuacji, w której algorytmy tłumaczące zaczynały trenować nie na jakościowych translacjach ludzkich tłumaczy, lecz na tym co samo wcześniej wygenerowało, ze wszystkimi błędami i osobliwościami. Innymi słowy – przyjmując na wejściu trochę śmieci, zaczynało zwracać na wyjściu więcej śmieci (które następnie mogły być wykorzystane do dalszego pogarszania jakości całej usługi).

Google z takiej możliwości zdało sobie sprawę całkiem niedawno – mówił o nim wczoraj podczas konferencji NASA Innovative Advanced Concepts Peter Norvig, dyrektor badań naukowych giganta z Mountain View. Stwierdził on, że na razie to nie jest poważny problem, ale w przyszłości może być gorzej. Na razie stosuje się „ręczne” rozwiązania, polegające na ocenie jakości stron przez ludzi – jeśli wyglądają dobrze, zostają zachowane w korpusie, w przeciwnym wypadku są wyrzucane. Wcześniej ograniczono możliwość psucia Tłumacza, kończąc z darmowym dostępem do API usługi, próbowano też oznaczać poszczególne translacje „cyfrowymi odciskami”, ale jak twierdzi Norvig, nie sprawdziło się to w praktyce.

© dobreprogramy
r   e   k   l   a   m   a
r   e   k   l   a   m   a

Komentarze

r   e   k   l   a   m   a
r   e   k   l   a   m   a
Czy wiesz, że używamy cookies (ciasteczek)? Dowiedz się więcej o celu ich używania i zmianach ustawień.
Korzystając ze strony i asystenta pobierania wyrażasz zgodę na używanie cookies, zgodnie z aktualnymi ustawieniami przeglądarki.