Tłumaczowi Google zagroziła własna popularność, jakość przekładów może się pogorszyć

Tłumaczowi Google zagroziła własna popularność, jakość przekładów może się pogorszyć13.02.2014 16:33

Tłumacz Google (Google Translate) stał się najpopularniejszą wSieci usługą do maszynowego tłumaczenia – i to pomimo zastrzeżeńco do jakości przekładów. Darmowość, wygodny interfejs, pełnaintegracja z Google Chrome, a także możliwość dynamicznegogenerowania tłumaczeń dla stron WWW poprzez API usługinajwyraźniej przeważyły. Tłumacz może jednak niebawem stać sięofiarą swojej własnej popularności: grozi mu zatrucie własnymitłumaczeniami.

Franz Josef Och, twórca oprogramowania stojącego za Tłumaczem,zapewne nie spodziewał się takiego obrotu sprawy. Stworzona przezniego usługa, w przeciwieństwie do większości innych systemówmaszynowego tłumaczenia, korzysta z analizy statystycznej, a nieanalizy na bazie reguł gramatycznych. W metodzie tej do stworzeniaprzekładu wykorzystuje się modele statystyczne, budowane napodstawie analizy korpusu równoległego danej pary języków (dużegozbioru tekstów równoległych). Zastosowanie wnioskowańbayesowskich pozwala następnie na znalezienie takich ciągówznaków dla języka wynikowego, które z najwyższymprawdopodobieństwem stanowią przekład języka wejściowego.

Wszystko byłoby dobrze, gdyby korpusy równoległe dla danej parybyły wysokiej jakości, a tłumaczenia zachodziły bezpośredniomiędzy nimi. Tak jednak nie jest. Tłumacz Google stosuje przekładypośrednie, najpierw tłumacząc język źródłowy na angielski, apotem tłumacząc z angielskiego na język wynikowy. Taki wybórprojektowy, podyktowany zapewne pochodzeniem Google'a, nie byłnajszczęśliwszy – pozbawiony fleksji, mało precyzyjnygramatycznie angielski, notorycznie gubi subtelności językówźródłowych. Jeszcze gorzej jest w wypadku języków, dla którychnie ma bezpośredniego przekładu na angielski – w wypadku np.ukraińskiego Tłumacz Google dokonuje tłumaczenia najpierw narosyjski, potem z rosyjskiego na angielski i z angielskiego na językwynikowy (np. polski). Wynik wówczas może przypominać zabawę wgłuchy telefon.

Obecnie korpusy równoległych języków tworzone są przez Googlew sposób zautomatyzowany, wykorzystując do tego zawartość samegoInternetu. Wyszukiwarka indeksując wielojęzyczne witryny zestawiaze sobą dokumenty o tej samej treści w różnych językach, byprzekazać je później analizie statystycznej. Wzrost liczbywielojęzycznych witryn w Sieci (a szczególnie publikacjemiędzynarodowych organizacji, takich jak ONZ czy UE) pozwoliłyzbudować korpusy ogromnych rozmiarów, więc z czasem optymalizacjaalgorytmów pozwoliła osiągnąć niezły poziom maszynowegotłumaczenia dla wielu par języków europejskich do angielskiego (ivice versa), niekiedy nawet lepszego niż w wypadku systemówtłumaczących poprzez analizę reguł gramatycznych.

Takie zastosowanie WWW do zasilania korpusu tekstów nieuwzględniło jednak jednej rzeczy. Niezła skuteczność GoogleTranslate sprawiła, że coraz więcej witryn w Sieci zaczęłostosować usługę tę do maszynowego tłumaczenia swoich stron WWW ina jego podstawie uruchamiać nowe wersje językowe. Te nowe wersjetrafiały do indeksu Google'a, więc rychło ich zawartośćpowiększała korpus równoległych języków. To zaś prowadziło dosytuacji, w której algorytmy tłumaczące zaczynały trenować niena jakościowych translacjach ludzkich tłumaczy, lecz na tym co samowcześniej wygenerowało, ze wszystkimi błędami i osobliwościami.Innymi słowy – przyjmując na wejściu trochę śmieci, zaczynałozwracać na wyjściu więcej śmieci (które następnie mogły byćwykorzystane do dalszego pogarszania jakości całej usługi).

Google z takiej możliwości zdało sobie sprawę całkiemniedawno – mówiło nim wczoraj podczas konferencji NASA Innovative AdvancedConcepts Peter Norvig, dyrektor badań naukowych giganta z MountainView. Stwierdził on, że na razie to nie jest poważny problem, alew przyszłości może być gorzej. Na razie stosuje się „ręczne”rozwiązania, polegające na ocenie jakości stron przez ludzi –jeśli wyglądają dobrze, zostają zachowane w korpusie, wprzeciwnym wypadku są wyrzucane. Wcześniej ograniczono możliwośćpsucia Tłumacza, kończąc z darmowym dostępem do API usługi,próbowano też oznaczać poszczególne translacje „cyfrowymiodciskami”, ale jak twierdzi Norvig, nie sprawdziło się to wpraktyce.

Źródło artykułu:www.dobreprogramy.pl
Szanowna Użytkowniczko! Szanowny Użytkowniku!
×
Aby dalej móc dostarczać coraz lepsze materiały redakcyjne i udostępniać coraz lepsze usługi, potrzebujemy zgody na dopasowanie treści marketingowych do Twojego zachowania. Twoje dane są u nas bezpieczne, a zgodę możesz wycofać w każdej chwili na podstronie polityka prywatności.

Kliknij "PRZECHODZĘ DO SERWISU" lub na symbol "X" w górnym rogu tej planszy, jeżeli zgadzasz się na przetwarzanie przez Wirtualną Polskę i naszych Zaufanych Partnerów Twoich danych osobowych, zbieranych w ramach korzystania przez Ciebie z usług, portali i serwisów internetowych Wirtualnej Polski (w tym danych zapisywanych w plikach cookies) w celach marketingowych realizowanych na zlecenie naszych Zaufanych Partnerów. Jeśli nie zgadzasz się na przetwarzanie Twoich danych osobowych skorzystaj z ustawień w polityce prywatności. Zgoda jest dobrowolna i możesz ją w dowolnym momencie wycofać zmieniając ustawienia w polityce prywatności (w której znajdziesz odpowiedzi na wszystkie pytania związane z przetwarzaniem Twoich danych osobowych).

Od 25 maja 2018 roku obowiązuje Rozporządzenie Parlamentu Europejskiego i Rady (UE) 2016/679 (określane jako "RODO"). W związku z tym chcielibyśmy poinformować o przetwarzaniu Twoich danych oraz zasadach, na jakich odbywa się to po dniu 25 maja 2018 roku.

Kto będzie administratorem Twoich danych?

Administratorami Twoich danych będzie Wirtualna Polska Media Spółka Akcyjna z siedzibą w Warszawie, oraz pozostałe spółki z grupy Wirtualna Polska, jak również nasi Zaufani Partnerzy, z którymi stale współpracujemy. Szczegółowe informacje dotyczące administratorów znajdują się w polityce prywatności.

O jakich danych mówimy?

Chodzi o dane osobowe, które są zbierane w ramach korzystania przez Ciebie z naszych usług, portali i serwisów internetowych udostępnianych przez Wirtualną Polskę, w tym zapisywanych w plikach cookies, które są instalowane na naszych stronach przez Wirtualną Polskę oraz naszych Zaufanych Partnerów.

Dlaczego chcemy przetwarzać Twoje dane?

Przetwarzamy je dostarczać coraz lepsze materiały redakcyjne, dopasować ich tematykę do Twoich zainteresowań, tworzyć portale i serwisy internetowe, z których będziesz korzystać z przyjemnością, zapewniać większe bezpieczeństwo usług, udoskonalać nasze usługi i maksymalnie dopasować je do Twoich zainteresowań, pokazywać reklamy dopasowane do Twoich potrzeb. Szczegółowe informacje dotyczące celów przetwarzania Twoich danych znajdują się w polityce prywatności.

Komu możemy przekazać dane?

Twoje dane możemy przekazywać podmiotom przetwarzającym je na nasze zlecenie oraz podmiotom uprawnionym do uzyskania danych na podstawie obowiązującego prawa – oczywiście tylko, gdy wystąpią z żądaniem w oparciu o stosowną podstawę prawną.

Jakie masz prawa w stosunku do Twoich danych?

Masz prawo żądania dostępu, sprostowania, usunięcia lub ograniczenia przetwarzania danych. Możesz wycofać zgodę na przetwarzanie, zgłosić sprzeciw oraz skorzystać z innych praw wymienionych szczegółowo w polityce prywatności.

Jakie są podstawy prawne przetwarzania Twoich danych?

Podstawą prawną przetwarzania Twoich danych w celu świadczenia usług jest niezbędność do wykonania umów o ich świadczenie (tymi umowami są zazwyczaj regulaminy). Podstawą prawną przetwarzania danych w celu pomiarów statystycznych i marketingu własnego administratorów jest tzw. uzasadniony interes administratora. Przetwarzanie Twoich danych w celach marketingowych realizowanych przez Wirtualną Polskę na zlecenie Zaufanych Partnerów i bezpośrednio przez Zaufanych Partnerów będzie odbywać się na podstawie Twojej dobrowolnej zgody.