Oznámení o Gemini 3.5 Live Translate mě zaujalo, protože jde o další pokus přiblížit simultánní překlad běžným uživatelům — a tentokrát se Google zaměřil hlavně na plynulost a tón překladu.
Co to vlastně umí
Gemini 3.5 Live Translate je audio model pro speech-to-speech překlad, který podle oznámení automaticky detekuje přes 70 jazyků a umí generovat přirozeně znějící překlad se zachováním intonace, tempa a výšky hlasu mluvčího. Na rozdíl od „turn-by-turn“ systémů, které čekají, až mluvčí dokončí větu, generuje tento model řeč průběžně — tedy vyvažuje mezi čekáním na kontext (kvůli kvalitě překladu) a potřebou zůstat synchronizovaný s mluvčími. Google tvrdí, že výsledkem jsou hladší konverace s „jen několikasekundovým“ zpožděním.
Zmíněné nasazení: veřejné preview pro vývojáře přes Gemini Live API a Google AI Studio, privátní preview v Google Meet pro firmy, a rollout v Google Translate na Androidu a iOS. Meet rozšiřuje podporu z dřívějších 5 jazyků na 70+ a umožňuje přes 2000 jazykových kombinací v jednom meetingu. Pro Android navíc přichází „listening mode“ — překlad direktně do sluchátka nebo earpiece telefonu.
Malá poznámka k pojmům: Gemini Live API je rozhraní, které umožňuje posílat audio streamy do modelu a dostávat překlad v reálném čase; „streamed speech“ znamená, že audio se zpracovává po částech během mluvení, ne až po nahrávce celé věty. SynthID je technologické označení Google pro neviditelnou vodotiskovou stopu v syntetickém audiu — stručně: pokus o možnost detekce, že zvuk je strojový.
Co se mi na tom líbí (a proč)
Praktické nasazení a integrace do známých produktů jsou silný tah. Když něco umí fungovat „out of the box“ v Google Translate nebo Google Meet, reálné využití to má hned — a integrace partnerů jako Grab, LiveKit nebo Agora ukazuje, že se to testuje v ostrém provozu (například miliony volání v Grab ekosystému). Zvlášť chválím, že model neomezuje konverace jen na origo-EN-origo, ale podporuje přímé překlady mezi stovkami kombinací.
Technicky mě potěšila zmínka o noise robustness — modely, které jsou trénované i na hlučnější data, jsou pro nasazení do meetingů nebo venkovních scén klíčové. A to, že audio je „watermarked with SynthID“, je dobrý krok k transparentnosti syntetické řeči; lepší než nic.
Co mě v oznámení zaráží nebo chybí
Z oznámení neplyne, jak přesně funguje latence a kde probíhá zpracování — zda jde vše přes Google cloud, nebo je nějaká část inference na zařízení. To má dopad na soukromí, legislativu a odolnost vůči výpadkům — a lidi to bude zajímat víc než marketingové „několik sekund za mluvčím". Stejně tak chybí měření kvality překladu: žádná čísla o přesnosti, žádné benchmarky nebo srovnání s lidskou simultánní interpretací nejsou uvedené.
SynthID jako watermark je fajn, ale není to všechno: vodotisk může pomoci s odhalením generovaného audia, ale nijak nebrání zneužití (když mám nástroj, který udělá deepfake hlasu, watermark mi to neodebere). Trochu mě taky zaráží, že nejsou detaily o tom, jak se zachází s vícejazyčným vstupem během jedné věty — system může detekovat jazyky automaticky, ale jak robustní je ta detekce při míchání slovních obratů, jmen nebo kód-switchingu, to oznamování neříká.
Co to může znamenat dál
Rozšíření simultánního překladu do běžných meetingů, call center, turistických průvodců a dopravních služeb může výrazně snížit bariéry komunikace. To je pozitivní — méně nutnosti hledat tlumočníka na místě. Na druhou stranu to otevře i otázky pracovního trhu (tlumočníci), kvality zprostředkovaného porozumění při právních nebo zdravotních kontextech a odpovědnosti za chybný překlad.
Pro vývojáře je Gemini Live API příležitost: integrace do existujících streaming platforem (např. LiveKit) zjednoduší vývoj hlasových funkcí. Z podnikatelského pohledu bude zajímavé sledovat, jak Google bude licencovat nebo cenit tuhle technologii — oznámení o tom mlčí.
Dokud nebudeme mít nezávislá hodnocení kvality, bude to spíš „hezké a použitelné“ než jasně superiérní. Ale tím, že Google nasazuje funkci do Translate a Meet, bude reálné chování systému brzy víc na očích.
Zakrátko: příjemný krok směrem k plynulému překladu, ale s klasickou sadou otazníků kolem soukromí, architektury a reálné kvality.