Blog

Gemini 3.1 Flash TTS: jemnější ovládání hlasu AI a co z toho plyne

Google DeepMind představil Gemini 3.1 Flash TTS — model, který nabízí granularitu řízení výrazu hlasu přes „audio tags“ a automatické watermarkování SynthID. Zajímá mě, jak to pomůže v praxi a kde to zatím může skřípat.

Úvod

Gemini 3.1 Flash TTS mě zaujalo, protože jde o krok směrem k tomu, aby AI hlas opravdu působil jako „herecký výkon“, ne jen monotónní syntéza. Dělám si poznámky z oznámení a přemýšlím, co z toho budou mít vývojáři i běžní uživatelé.

Co se vlastně stalo

Google DeepMind nasadil nový text‑to‑speech model Gemini 3.1 Flash TTS a nasazuje ho přes Gemini API (rozhraní pro vývojáře), Google AI Studio, Vertex AI (Google platforma pro podnikové ML) a Google Vids. DeepMind tvrdí lepší kvalitu a vyšší míru kontroly nad projevem — model získal na benchmarku Artificial Analysis TTS Elo skóre 1 211, což je měřítko preferencí tisíců anonymních hodnotitelů. Model podporuje přes 70 jazyků, vícespeaker dialog a nově přidává takzvané audio tags — vložené příkazy v textu, které určují styl, tempo a „režii" projevu.

Proč mě to zajalo

Mně osobně se líbí důraz na granularitu: audio tags zní jako užitečný nástroj pro herní dialogy, audioknihy, přístupnost (čtení pro zrakově postižené) nebo lokální dabing, kde chcete, aby postavy zůstaly in‑character a reagovaly dynamicky. Možnost exportovat přesně nastavené parametry jako kód pro Gemini API je praktická — usnadní to reprodukovatelnost hlasu napříč projekty.

Také oceňuju, že Google do výstupu integruje SynthID — neviditelný watermark, který by měl umožnit spolehlně označit audio jako AI‑generované. To je důležité proti zneužití při šíření deepfake nahrávek.

Co mi v tom chybí a co mě znepokojuje

Trochu mě zarazilo, že oznámení neuvádí informace o latenci, ceně za generování, velikosti modelu ani o tom, jak moc jdou audio tags do hloubky (konkrétní syntaktika, granularita atd.). Nevíme ani přesně jak robustní je SynthID při re‑kompresi, přehrávání přes telefony nebo při úpravách v audiosuitech. To jsou praktické věci, které rozhodují, jestli to nasadíte v reálné produkci.

Bezpečnostně zůstává dilema: watermark pomůže detekovat AI audio, ale nebrání samotnému zneužití (např. napodobení hlasu známé osoby). Otázky právního souhlasu s „použitím hlasu“, licencí hlasových profilů a potenciálního zneužití zůstanou aktuální.

Kam by to mohlo dál vést

Prakticky: lepší nástroje pro režii hlasu mohou zrychlit tvorbu lokalizovaných audioknih, interaktivních příběhů či hlasových asistentů s různými charaktery. Pokud Google zpřístupní kvalitní fine‑tuning hlasů pro menší vývojáře (a výpočetně to bude dostupné), uvidíme větší kreativitu v menších projektech.

Na druhou stranu to akceleruje i arms‑race v oblasti detekce a ochrany identity hlasů: vyvíjet se bude jak nástroj pro tvorbu přesných napodobenin, tak protiopatření (watermarky, forenzní detekce).

Závěr

Gemini 3.1 Flash TTS mi přijde jako pevný krok směrem k „hereckému“ TTS s praktickými řídicími prvky, ale nasazení v reálných scénářích bude záviset na detailech (cena, latence, odolnost watermarku), které Google zatím neukázal. Budu sledovat, jak rychle se objeví první ukázkové projekty a jak na to zareaguje komunita.

Zdroje

Došlo k neočekávané chybě. Obnovit 🗙

Rejoining the server...

Rejoin failed... trying again in seconds.

Failed to rejoin.
Please retry or reload the page.

The session has been paused by the server.

Failed to resume the session.
Please retry or reload the page.