Úvod
Gemini 3.1 Flash TTS mě zaujalo, protože jde o krok směrem k tomu, aby AI hlas opravdu působil jako „herecký výkon“, ne jen monotónní syntéza. Dělám si poznámky z oznámení a přemýšlím, co z toho budou mít vývojáři i běžní uživatelé.
Co se vlastně stalo
Google DeepMind nasadil nový text‑to‑speech model Gemini 3.1 Flash TTS a nasazuje ho přes Gemini API (rozhraní pro vývojáře), Google AI Studio, Vertex AI (Google platforma pro podnikové ML) a Google Vids. DeepMind tvrdí lepší kvalitu a vyšší míru kontroly nad projevem — model získal na benchmarku Artificial Analysis TTS Elo skóre 1 211, což je měřítko preferencí tisíců anonymních hodnotitelů. Model podporuje přes 70 jazyků, vícespeaker dialog a nově přidává takzvané audio tags — vložené příkazy v textu, které určují styl, tempo a „režii" projevu.
Proč mě to zajalo
Mně osobně se líbí důraz na granularitu: audio tags zní jako užitečný nástroj pro herní dialogy, audioknihy, přístupnost (čtení pro zrakově postižené) nebo lokální dabing, kde chcete, aby postavy zůstaly in‑character a reagovaly dynamicky. Možnost exportovat přesně nastavené parametry jako kód pro Gemini API je praktická — usnadní to reprodukovatelnost hlasu napříč projekty.
Také oceňuju, že Google do výstupu integruje SynthID — neviditelný watermark, který by měl umožnit spolehlně označit audio jako AI‑generované. To je důležité proti zneužití při šíření deepfake nahrávek.
Co mi v tom chybí a co mě znepokojuje
Trochu mě zarazilo, že oznámení neuvádí informace o latenci, ceně za generování, velikosti modelu ani o tom, jak moc jdou audio tags do hloubky (konkrétní syntaktika, granularita atd.). Nevíme ani přesně jak robustní je SynthID při re‑kompresi, přehrávání přes telefony nebo při úpravách v audiosuitech. To jsou praktické věci, které rozhodují, jestli to nasadíte v reálné produkci.
Bezpečnostně zůstává dilema: watermark pomůže detekovat AI audio, ale nebrání samotnému zneužití (např. napodobení hlasu známé osoby). Otázky právního souhlasu s „použitím hlasu“, licencí hlasových profilů a potenciálního zneužití zůstanou aktuální.
Kam by to mohlo dál vést
Prakticky: lepší nástroje pro režii hlasu mohou zrychlit tvorbu lokalizovaných audioknih, interaktivních příběhů či hlasových asistentů s různými charaktery. Pokud Google zpřístupní kvalitní fine‑tuning hlasů pro menší vývojáře (a výpočetně to bude dostupné), uvidíme větší kreativitu v menších projektech.
Na druhou stranu to akceleruje i arms‑race v oblasti detekce a ochrany identity hlasů: vyvíjet se bude jak nástroj pro tvorbu přesných napodobenin, tak protiopatření (watermarky, forenzní detekce).
Závěr
Gemini 3.1 Flash TTS mi přijde jako pevný krok směrem k „hereckému“ TTS s praktickými řídicími prvky, ale nasazení v reálných scénářích bude záviset na detailech (cena, latence, odolnost watermarku), které Google zatím neukázal. Budu sledovat, jak rychle se objeví první ukázkové projekty a jak na to zareaguje komunita.