O sieciowych tłumaczach: Język kłamie Internetowi, a Internet myślom kłamie

Stopniowe pojawianie się na rynku urządzeń i usług, które znane są fanom science-fiction od wielu lat, coraz częściej pozwala współczesnym na dumne stwierdzenie, że przyszłość jest teraz. Co ciekawe, następuje nawet sprzężenie zwrotne – znaczenie techniki, która jeszcze kilka lat temu była np. w filmach sci-fi portretowana jako jednoznacznie ułatwiająca funkcjonowanie, jest dziś często rozpatrywane w kontekście negatywnego wpływu na kondycję cywilizacji.

Maciej Olanicki

5 kwietnia 2015, 00:40

Rzeczywistość wirtualna, głosowe asystentki czy dostęp do wiedzy absolutnej z poziomu urządzenia mieszczącego się w dłoni może napawać dumą. Szczególnie że ma to wpływ na tak istotną cześć ludzkiego życia, jak komunikacja. Także międzyjęzykowa.

Trudno się dziwić, że stworzenie tłumacza doskonałego, wykorzystującego złożone algorytmy i głębokie uczenie, stało się jednym z najistotniejszych celów dla największych korporacji w branży IT. Mimo że na aktualnym stadium rozwoju trudno mówić o porównywaniu zysków choćby z Tłumacza Google z tymi generowanymi przez AdSense, to motywowanie rozwoju automatycznych tłumaczeń leży na zupełnie innym, wyższym poziomie. Pojawia się bowiem możliwość ujarzmienia ograniczeń w komunikacji, które towarzyszą ludzkości od końca okresu przedhistorycznego. Nigdy nie byliśmy jako gatunek tak bliscy udowodnienia, że kara za zbudowanie Wieży Babel przestaje nas obowiązywać.

Przed kupnem szampana i świętowaniem końca barier językowych należałoby jednak zweryfikować skuteczność internetowych tłumaczy, co szybko sprowadza na ziemię. Jeżeli bowiem aktualna jakość tłumaczeń oferowanych przez usługi Google'a czy Microsoftu jest dla kogoś w pełni satysfakcjonująca, to równie dobrze może on zacząć sypiać na łożu fakira – pewnie również będzie zadowolony. Dlaczego więc współczesna technika pozwala na zdobywanie wiedzy na temat odległych galaktyk, a jest umiarkowanie skuteczna w kwestii (w porównaniu) tak lokalnej, jak pokonanie barier językowych?

Podstawowym problemem są elementarne różnice w systemie konkretnych par językowych, między innymi na poziomie morfologicznym i słowotwórczym. Stąd dziesiątki dostępnych w Sieci mniej lub bardziej zabawnych obrazków prezentujących sytuacje, w których ktoś w całej swojej naiwności postanowił na przykład przetłumaczyć szyld swojego sklepiku za pomocą Tłumacza Google. Podstawowym problemem w skuteczności tłumaczeń za pomocą tej usługi jest stosowanie tłumaczenia pośredniego. Mimo dostępu do ogromnych zasobów informacji, Tłumacz wykorzystuje nie pary, ale trzy, a czasem więcej języków. Do przetłumaczenia tekstu na przykład z suomi na polski, program najpierw przetłumaczy fiński rzeczownik na angielski, a potem z angielskiego na polski. Nietrudno sobie zatem wyobrazić jak mizerny będzie końcowy efekt biorąc pod uwagę, że Finowie odmieniają rzeczowniki przez piętnaście przypadków, a Anglicy w zasadzie wcale. W ten sposób wyjściowe słowo całkowicie zatraca końcówkę fleksyjną, zgodność przypadków i po przetłumaczeniu jest zwykle mianownikiem. Polska język trudna język. Fińska także.

Tłumacz Google posługuje się modelem statystycznym, czemu w dużej mierze zawdzięcza swoją sławę, zarówno dobrą, jak i tę drugą. Pozwala to bowiem na korzystanie z ogromnych zasobów, jakie już zostały opublikowane w Sieci. Na ich podstawie oceniane jest prawdopodobieństwo, że analizowane wypowiedzenie w języku wyjściowym może stanowić przekład wprowadzonego przez użytkownika wypowiedzenia w języku wejściowym.

Brzmi doskonale, tylko dlaczego tak nie funkcjonuje? Wspomniany brak zgodności form wynikający w głównej mierze z, delikatnie rzecz ujmując, nietrafionego wyboru języka angielskiego jako pośrednika, to wierzchołek góry lodowej. Nagminnym błędem obecnym w efektach pracy automatycznych tłumaczy jest całkowita bezradność wobec homonimii językowej. Jest to zjawisko, w którym słowo z jednego języka brzmi identycznie lub bardzo podobnie do słowa z innego języka, przy czym ich znaczenie jest całkowicie inne. Przykładem niech będzie sytuacja, w której polski pies został przez silnik Microsoftu przetłumaczony na hiszpański jako... stopy (hiszp. pies). Homonimy międzyjęzykowe noszą także nazwę fałszywych przyjaciół tłumacza. Jak widać, także maszynowego tłumacza.

Kolejnym powodem niskiej skuteczności tłumaczeń maszynowych jest składnia. Na aktualnym etapie rozwoju tłumacze są w zasadzie całkowicie niezdolne do transferencji gramatycznej, czyli zdolności wynikającej z wiedzy o różnicach między językami właśnie na poziomie składni. Polega ona na umiejętności odtworzenia danej konstrukcji w języku wyjściowym, chociaż jej struktura może być w nim całkowicie odmienna od wejściowego. Jest to także typowy błąd ludzki wynikający z założenia, że przetłumaczenie każdego słowa z osobna będzie skutkowało przetłumaczeniem wypowiedzenia.

Wyzwań jest oczywiście znacznie więcej, jak choćby stosowanie różnych norm językowych. Zakłada się bowiem, że normę ustala słownik, choć coraz częstsze są głosy, że konieczne jest wprowadzenie do nich drugiej normy – potocznej. Trudno sobie przecież wyobrazić, aby w swobodnej konwersacji między znajomymi maszynowe tłumaczenie posługiwało się zawsze słownictwem stylu oficjalnego czy naukowego. Nieświadomy użytkownik mógłby nie tylko przecenić kulturę językową swojego rozmówcy, ale nawet poczuć się traktowany protekcjonalnie.

W takim świetle doskonałym podsumowaniem wydają się słowa Andy'ego Waya, naukowca z Uniwersytetu w Dublinie zajmującego się tłumaczeniami maszynowymi:

Bardziej prawdopodobne jest to, że przed uniwersalnym tłumaczem będziemy mieli wszystkie pozostałe rzeczy ze Star Treka.

lub, jak woli Tłumacz Google:Jesteś bardziej prawdopodobne, że wszystko inne w Star Trek przed kiedykolwiek dostać uniwersalny tłumacz.

Choć nie napawa to optymizmem, to niesłusznie byłoby popadać w melancholię. Szczególnie że w pracach nad automatycznymi tłumaczeniami drugorzędną kwestią zdają się, przynajmniej na razie, korzyści finansowe. Być może to naiwne twierdzić, że rozwój techniki w tym kierunku jest motywowany wielką ideą, ale pozostańmy naiwni – być może dzięki temu łatwiej będzie wierzyć, że wkrótce otrzymamy wymarzonego Uniwersalnego Automatycznego Tłumacza.

Maciej Olanicki