Gemini 3.5 Live Translate od Google. Tłumaczenie mowy w 70 językach
Google zaczął wdrażać Gemini 3.5 Live Translate - nowy model audio, który tłumaczy wypowiedzi niemal bez opóźnień. Rozwiązanie ma automatycznie rozpoznawać ponad 70 języków i przenosić do przekładu cechy rozmówcy, takie jak intonacja, tempo czy wysokość głosu.
Firma zapowiada, że Gemini 3.5 Live Translate trafi równolegle do kilku usług. Kluczową zmianą ma być sposób działania: model nie czeka, aż rozmówca zakończy całą wypowiedź, tylko tworzy tłumaczenie w trakcie mówienia. Dzięki temu dźwięk ma brzmieć naturalnie i bez zacięć, a opóźnienie względem oryginału ma wynosić jedynie kilka sekund.
Gemini 3.5 Live Translate: mechanizm działania
Jak opisuje Google, model analizuje mowę już na etapie jej przesyłania. Samodzielnie wykrywa język, przyjmuje wielojęzyczne wejście bez ręcznego ustawiania parametrów i zachowuje wysoką jakość także wtedy, gdy warunki są trudniejsze, na przykład w hałaśliwym, mniej przewidywalnym otoczeniu.
Zakrzywili ruchome schody. To koszmar inżynierów
Według firmy tłumaczenie na żywo może znaleźć zastosowanie w wielu scenariuszach: od rozmów i spotkań, przez lekcje, aż po transmisje. Nowy model ma pilnować płynności dialogu i zatrzymywać się na tyle krótko, by złapać potrzebny kontekst, bez wyraźnego spowalniania rozmowy.
Google dodaje też, że dźwięk generowany przez jego modele ma być oznaczany znakiem wodnym SynthID. Ma być ukryty bezpośrednio w sygnale audio, by ułatwiać identyfikowanie treści stworzonych przez AI i ograniczać ryzyko dezinformacji.
Google Meet i Google Translate. Gdzie trafi nowe tłumaczenie mowy?
W Google Meet funkcja tłumaczenia mowy ma wkrótce zacząć wykorzystywać Gemini 3.5 Live Translate. Prywatne testy dla wybranych klientów biznesowych Google Workspace mają ruszyć jeszcze w tym miesiącu, natomiast szersze wdrożenie zaplanowano na dalszą część roku.
Model jest też udostępniany globalnie w aplikacji Google Translate na Androidzie i iOS. W ramach funkcji "live translate" użytkownik ma móc podłączyć dowolne słuchawki i słyszeć przekład, który ma odzwierciedlać ton wypowiedzi rozmówcy.
Google informuje również o stopniowym udostępnianiu na Androidzie nowej opcji "listening mode". Ma ona umożliwić odsłuch tłumaczenia przez głośnik do rozmów w telefonie. Wystarczy przyłożyć urządzenie do ucha jak podczas standardowego połączenia, a przetłumaczony dźwięk ma być odtwarzany od razu. Według firmy to rozwiązanie ma pomóc w sytuacjach, gdy ktoś chce szybko usłyszeć przekład w bardziej dyskretny sposób, ale akurat nie ma przy sobie słuchawek.