r   e   k   l   a   m   a
r   e   k   l   a   m   a

Tłumacz Google z neuronowym silnikiem – by chińszczyznę było łatwiej pojąć

Strona główna AktualnościOPROGRAMOWANIE

Czy zawodowi tłumacze powinni już szukać sobie nowej pracy, np. zostać kierowcami Ubera? Tak mogłoby się stać za sprawą naukowców Google’a. Pochwalili się oni wykorzystaniem nowego silnika Tłumacza Google, bazującego na sieciach neuronowych, który miał pozwolić im na osiągnięcie jakości przekładów zbliżonej do tych robionych przez ludzi biegłych w danej parze języków.

Przez ostatnie dziesięć lat Google Translate działało na bazie algorytmu translacji frazowej (PBMT). Tłumaczone były całe ciągi słów o różnej długości, co ciekawe niekoniecznie będące frazami języka naturalnego, lecz raczej frazeologizmami wychwyconymi metodami statystycznymi z korpusu dostępnych tekstów.

Teraz w usłudze translacyjnej z Mountain View debiutuje coś, co nosi nazwę Google Neural Machine Translation system (GNMT). To rozwiązanie bazujące na rekurencyjnych sieciach neuronowych, odwzorowujących sekwencje wejściowe zdań na sekwencje wyjściowe (w innym języku): tutaj nie poszczególne związki frazeologiczne, lecz całość wprowadzonego tekstu jest jednostką translacji.

r   e   k   l   a   m   a

Pracowano nad tym kilka lat, a zastosowanie licznych technik optymalizacji, związanych m.in. z tłumaczeniem rzadkich słów i przetwarzaniem ogromnych zbiorów danych, przyniosły w końcu efekty, którymi zespół badaczy zechciał się pochwalić w artykule pt. Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation. Opisuje on sieć neuronową z pamięcią krótkotrwałą o ośmiu warstwach kodowania i ośmiu warstwach dekodowania, w której dolna warstwa dekodera spięta jest górną warstwą kodera, oraz optymalizacjami dla obliczeń o niskiej precyzji, które pozwoliły znacząco przyspieszyć jej działanie.

Pierwszą parą języków, jaką pracowano z GNMT, był angielski i chiński (mandaryński). Na powyższej animacji można zobaczyć jak to działa: sieć koduje w koderze chińskie słowa jako listę wektorów, gdzie każdy wektor przedstawia znaczenie wszystkich odczytanych dotąd słów. Po odczytaniu całego zdania, dekoder zaczyna generować angielskie słowa, jedno po drugim, uwzględniając rozkład ważony zakodowanych chińskich wektorów kluczowych do wygenerowania angielskiego słowa. Na animacji nasycenie koloru połączenia przedstawia uwagę, jaką dekoder przykłada do zakodowanego słowa.

Badacze chwalą się, że debiut GNMT przypadł na wyjątkowo trudną parę języków, tj. chiński i angielski – obecnie Tłumacz Google korzysta z tego silnika do wszystkich translacji tej pary języków, tj. średnio 18 mln przekładów dziennie. Chwalą się też jakością przekładów, porównując je do osiągnięć silnika PBMT i przekładu autorstwa człowieka, nie tylko dla pary chiński-angielski, ale też par hiszpański-angielski, francuski-angielski i angielski-chiński, które obecnie są w fazie testowej.

Tłumaczu, zostań kierowcą Ubera?

Osiągnięcie niewątpliwie spore, tyle że przedstawione przykłady nie są specjalnie przekonujące. Po pierwsze, przestawienie chińskiego i angielskiego jako „wyjątkowo trudnej pary języków” jest wyjątkowo mało przekonujące, przynajmniej w piśmie (a pismem się tu zajmujemy). Chińska gramatyka jest podobna do gramatyki angielskiej. Oba języki wykorzystują zdania typu SVO (podmiot-orzeczenie-dopełnienie), oba pozbawione są praktycznie fleksji, współczesny chiński nie ma nawet odmiany przez rodzaje czy liczby. Jeśli chcemy w chińskim powiedzieć, że coś wydarzyło się w przeszłości, to do czasownika dodajemy po prostu odpowiedni znak-sufiks, dokładnie tak samo, jak w angielskim dodaje się (przy regularnej odmianie) sufiks „-ed”. Nie ma co nawet porównywać tego do złożoności form fleksyjnych języków takich jak polski czy rosyjski.

Po drugie, zaprezentowane przykłady są raczej trywialne. Fragmenty newsów z serwisów o tematyce biznesowej i politycznej czy zdania wyjęte z bajek – znaczenie wydaje się być zachowane, ale jakość jest taka sobie. W tych testowych parach jest jeszcze mniej ciekawie – zapytaliśmy dwie znajome koleżanki z Chin, co sądzą o przekładach angielski-chiński, stwierdziły, że tak sobie, owszem, chyba rozumieją o co chodzi, ale to nie jest dobry chiński.

Trudno powiedzieć dziś, czy istnieje górna granica jakości maszynowego tłumaczenia. Filozofowie języka wskazują nierzadko na podstawowy problem przekładu literatury w ten sposób: tłumacz w tym wypadku nie tłumaczy słowa po słowie, ani zdania po zdaniu, lecz w rzeczywistości opowiada treść w swoim języku, posiłkując się intuicją i wyobraźnią językową. W praktyce buduje most między kulturami, po którym przechodzą słowa języka naturalnego.

Tak więc poezja, humor, mistycyzm, a nawet zawiłości prawa i dyplomacji – tego jeszcze długo nie uda się powierzyć maszynom. A być może nigdy się tego nie uda, chyba że te maszyny będą żyły wśród nas i używały naszego języka w taki sam sposób jak my. Słowa nie mają bowiem sztywnego znaczenia, lecz są ewoluującymi bytami, które w praktyce językowej nabierają nowych niuansów znaczeniowych i tracą stare. Co więcej, sama biegłość w danym języku wiąże się z nabyciem niesformalizowanych nawyków językowych, które nie zostały nigdzie zapisane, a które po prostu są, bo tak wszyscy mówią – i te nawyki różnią się między językami, a nawet między dialektami języka. Dzisiaj, kiedy komunikują się ze sobą w Sieci ludzie przeróżnych kultur i języków, widać to szczególnie mocno – nieporozumienia są częste, a wyjaśnić tego w zwięzłości internetowych pogawędek nie ma gdzie.

Oczywiście dokumentacja techniczna, rozmówki turystyczne, proste sprawy biznesowe to zupełnie inna sprawa. Tutaj maszynowe translatory mogą się bardzo dobrze sprawdzić, a dostępne w każdym smartfonie uczynić globalną komunikację znacznie prostszą.

© dobreprogramy
r   e   k   l   a   m   a
r   e   k   l   a   m   a

Komentarze

r   e   k   l   a   m   a
r   e   k   l   a   m   a
Czy wiesz, że używamy cookies (ciasteczek)? Dowiedz się więcej o celu ich używania i zmianach ustawień.
Korzystając ze strony i asystenta pobierania wyrażasz zgodę na używanie cookies, zgodnie z aktualnymi ustawieniami przeglądarki.