Blog

Gemini 3.1 Flash TTS: jemnější ovládání hlasu AI a co z toho plyne

26. 4. 2026AI

Google DeepMind představil Gemini 3.1 Flash TTS — model, který nabízí granularitu řízení výrazu hlasu přes „audio tags“ a automatické watermarkování SynthID. Zajímá mě, jak to pomůže v praxi a kde to zatím může skřípat.

Úvod

Gemini 3.1 Flash TTS mě zaujalo, protože jde o krok směrem k tomu, aby AI hlas opravdu působil jako „herecký výkon“, ne jen monotónní syntéza. Dělám si poznámky z oznámení a přemýšlím, co z toho budou mít vývojáři i běžní uživatelé.

Co se vlastně stalo

Google DeepMind nasadil nový text‑to‑speech model Gemini 3.1 Flash TTS a nasazuje ho přes Gemini API (rozhraní pro vývojáře), Google AI Studio, Vertex AI (Google platforma pro podnikové ML) a Google Vids. DeepMind tvrdí lepší kvalitu a vyšší míru kontroly nad projevem — model získal na benchmarku Artificial Analysis TTS Elo skóre 1 211, což je měřítko preferencí tisíců anonymních hodnotitelů. Model podporuje přes 70 jazyků, vícespeaker dialog a nově přidává takzvané audio tags — vložené příkazy v textu, které určují styl, tempo a „režii" projevu.

Proč mě to zajalo

Mně osobně se líbí důraz na granularitu: audio tags zní jako užitečný nástroj pro herní dialogy, audioknihy, přístupnost (čtení pro zrakově postižené) nebo lokální dabing, kde chcete, aby postavy zůstaly in‑character a reagovaly dynamicky. Možnost exportovat přesně nastavené parametry jako kód pro Gemini API je praktická — usnadní to reprodukovatelnost hlasu napříč projekty.

Také oceňuju, že Google do výstupu integruje SynthID — neviditelný watermark, který by měl umožnit spolehlně označit audio jako AI‑generované. To je důležité proti zneužití při šíření deepfake nahrávek.

Co mi v tom chybí a co mě znepokojuje

Trochu mě zarazilo, že oznámení neuvádí informace o latenci, ceně za generování, velikosti modelu ani o tom, jak moc jdou audio tags do hloubky (konkrétní syntaktika, granularita atd.). Nevíme ani přesně jak robustní je SynthID při re‑kompresi, přehrávání přes telefony nebo při úpravách v audiosuitech. To jsou praktické věci, které rozhodují, jestli to nasadíte v reálné produkci.

Bezpečnostně zůstává dilema: watermark pomůže detekovat AI audio, ale nebrání samotnému zneužití (např. napodobení hlasu známé osoby). Otázky právního souhlasu s „použitím hlasu“, licencí hlasových profilů a potenciálního zneužití zůstanou aktuální.

Kam by to mohlo dál vést

Prakticky: lepší nástroje pro režii hlasu mohou zrychlit tvorbu lokalizovaných audioknih, interaktivních příběhů či hlasových asistentů s různými charaktery. Pokud Google zpřístupní kvalitní fine‑tuning hlasů pro menší vývojáře (a výpočetně to bude dostupné), uvidíme větší kreativitu v menších projektech.

Na druhou stranu to akceleruje i arms‑race v oblasti detekce a ochrany identity hlasů: vyvíjet se bude jak nástroj pro tvorbu přesných napodobenin, tak protiopatření (watermarky, forenzní detekce).

Závěr

Gemini 3.1 Flash TTS mi přijde jako pevný krok směrem k „hereckému“ TTS s praktickými řídicími prvky, ale nasazení v reálných scénářích bude záviset na detailech (cena, latence, odolnost watermarku), které Google zatím neukázal. Budu sledovat, jak rychle se objeví první ukázkové projekty a jak na to zareaguje komunita.

Zdroje

https://deepmind.google/blog/gemini-3-1-flash-tts-the-next-generation-of-expressive-ai-speech/