Blog

Gemini 3.5 Live Translate: plynulý překlad řeči téměř v reálném čase

Google DeepMind představil Gemini 3.5 Live Translate — model, který dělá plynulý speech-to-speech překlad přes 70 jazyků a snaží se překonat „pauzy“ klasických systémů. Zajímavé zejména pro meetingy, průvodce a aplikace s živým překladem.

Oznámení o Gemini 3.5 Live Translate mě zaujalo, protože jde o další pokus přiblížit simultánní překlad běžným uživatelům — a tentokrát se Google zaměřil hlavně na plynulost a tón překladu.

Co to vlastně umí

Gemini 3.5 Live Translate je audio model pro speech-to-speech překlad, který podle oznámení automaticky detekuje přes 70 jazyků a umí generovat přirozeně znějící překlad se zachováním intonace, tempa a výšky hlasu mluvčího. Na rozdíl od „turn-by-turn“ systémů, které čekají, až mluvčí dokončí větu, generuje tento model řeč průběžně — tedy vyvažuje mezi čekáním na kontext (kvůli kvalitě překladu) a potřebou zůstat synchronizovaný s mluvčími. Google tvrdí, že výsledkem jsou hladší konverace s „jen několikasekundovým“ zpožděním.

Zmíněné nasazení: veřejné preview pro vývojáře přes Gemini Live API a Google AI Studio, privátní preview v Google Meet pro firmy, a rollout v Google Translate na Androidu a iOS. Meet rozšiřuje podporu z dřívějších 5 jazyků na 70+ a umožňuje přes 2000 jazykových kombinací v jednom meetingu. Pro Android navíc přichází „listening mode“ — překlad direktně do sluchátka nebo earpiece telefonu.

Malá poznámka k pojmům: Gemini Live API je rozhraní, které umožňuje posílat audio streamy do modelu a dostávat překlad v reálném čase; „streamed speech“ znamená, že audio se zpracovává po částech během mluvení, ne až po nahrávce celé věty. SynthID je technologické označení Google pro neviditelnou vodotiskovou stopu v syntetickém audiu — stručně: pokus o možnost detekce, že zvuk je strojový.

Co se mi na tom líbí (a proč)

Praktické nasazení a integrace do známých produktů jsou silný tah. Když něco umí fungovat „out of the box“ v Google Translate nebo Google Meet, reálné využití to má hned — a integrace partnerů jako Grab, LiveKit nebo Agora ukazuje, že se to testuje v ostrém provozu (například miliony volání v Grab ekosystému). Zvlášť chválím, že model neomezuje konverace jen na origo-EN-origo, ale podporuje přímé překlady mezi stovkami kombinací.

Technicky mě potěšila zmínka o noise robustness — modely, které jsou trénované i na hlučnější data, jsou pro nasazení do meetingů nebo venkovních scén klíčové. A to, že audio je „watermarked with SynthID“, je dobrý krok k transparentnosti syntetické řeči; lepší než nic.

Co mě v oznámení zaráží nebo chybí

Z oznámení neplyne, jak přesně funguje latence a kde probíhá zpracování — zda jde vše přes Google cloud, nebo je nějaká část inference na zařízení. To má dopad na soukromí, legislativu a odolnost vůči výpadkům — a lidi to bude zajímat víc než marketingové „několik sekund za mluvčím". Stejně tak chybí měření kvality překladu: žádná čísla o přesnosti, žádné benchmarky nebo srovnání s lidskou simultánní interpretací nejsou uvedené.

SynthID jako watermark je fajn, ale není to všechno: vodotisk může pomoci s odhalením generovaného audia, ale nijak nebrání zneužití (když mám nástroj, který udělá deepfake hlasu, watermark mi to neodebere). Trochu mě taky zaráží, že nejsou detaily o tom, jak se zachází s vícejazyčným vstupem během jedné věty — system může detekovat jazyky automaticky, ale jak robustní je ta detekce při míchání slovních obratů, jmen nebo kód-switchingu, to oznamování neříká.

Co to může znamenat dál

Rozšíření simultánního překladu do běžných meetingů, call center, turistických průvodců a dopravních služeb může výrazně snížit bariéry komunikace. To je pozitivní — méně nutnosti hledat tlumočníka na místě. Na druhou stranu to otevře i otázky pracovního trhu (tlumočníci), kvality zprostředkovaného porozumění při právních nebo zdravotních kontextech a odpovědnosti za chybný překlad.

Pro vývojáře je Gemini Live API příležitost: integrace do existujících streaming platforem (např. LiveKit) zjednoduší vývoj hlasových funkcí. Z podnikatelského pohledu bude zajímavé sledovat, jak Google bude licencovat nebo cenit tuhle technologii — oznámení o tom mlčí.

Dokud nebudeme mít nezávislá hodnocení kvality, bude to spíš „hezké a použitelné“ než jasně superiérní. Ale tím, že Google nasazuje funkci do Translate a Meet, bude reálné chování systému brzy víc na očích.

Zakrátko: příjemný krok směrem k plynulému překladu, ale s klasickou sadou otazníků kolem soukromí, architektury a reálné kvality.

Zdroje

Došlo k neočekávané chybě. Obnovit 🗙

Rejoining the server...

Rejoin failed... trying again in seconds.

Failed to rejoin.
Please retry or reload the page.

The session has been paused by the server.

Failed to resume the session.
Please retry or reload the page.