Zaujalo mě to, protože video generace se teď stává hlavním polem souboje mezi velkými hráči a Omni by mohl změnit, jak se k tomu přistupuje architektonicky.
Co vlastně uniklo
Z uživatelského rozhraní Gemini se objevila reference na model „Omni“. To je leak, ne oficiální launch — tedy jen zmínka v UI, která naznačuje, že Google interně testuje jednotný model pro generování médií. Dnes Google používá pro video větve Veo 3.1 a pro statické obrázky Nano Banana jako oddělené stopy; Omni by tyto stopy konsolidoval do jedné architektury.
Krátké vysvětlení pojmu: multimodální model pracuje současně s vícero modalitami (text, obraz, video), takže jednotný multimodální model by měl umět plynule přecházet mezi statickým obrázkem a časovou posloupností snímků.
Proč by to dávalo smysl
Spojit image a video do jedné sítě může přinést lepší konzistenci stylu a obsahu napříč snímky, jednodušší editaci (např. upravíte scénu a změna se projeví konzistentně ve všech snímcích) a efektivnější sdílení parametrů mezi úlohami. Pro produktové použití to znamená méně special‑case kódu — pokud Omni zvládne oboje dobře, integrace videa do nástrojů jako Gemini může být nativnější, ne „přilepená" funkcionalita.
Další faktor je konkurence: ByteDance má Seedance 2.0 jako lídra video benchmarků, takže tlak na Google, aby reagoval, dává velký smysl. Časování směrem k Google I/O 19.–20. května naznačuje, že oznámení by mohlo přijít právě tam.
Co mi v tom chybí a proč mě to trochu zaráží
Únik je jen jméno v UI — žádná data, žádné metriky, žádné ukázky. To je přesně to, co mě trápí: nevíme, jak Omni řeší temporální konzistenci (tj. aby objekty nevyskakovaly nebo měnily tvar mezi snímky), jak velký bude kontext (délka videa, kterou model dokáže natáhnout) a jak náročná bude inference z hlediska latence a ceny.
Taky není jasné, zda Omni nahradí Veo a Nano Banana, nebo bude jen další větev, která s nimi koexistuje. A chybí i informace o infrastruktuře — nasazení nativního video modelu může vyžadovat jiné akcelerátory nebo optimalizace (např. tokenizace videa, streaming generace snímků), o kterých zatím nic neuniklo.
Jaké jsou možné důsledky, když to funguje
- Zlepšená uživatelská zkušenost: nativní video output může působit hladčeji než současné „video vyrobené z obrázků".
- Rychlejší iterace produktů: interní unifikace usnadní přidávání funkcí napříč médii.
- Nové výzvy pro výzkum: bude třeba řešit škálování temporálních modelů a efektivní učení dlouhých sekvencí snímků bez explodujících nákladů.
- Konkurence se může urychlit: pokud Google oznámí Omni, ostatní hráči (a výzkumné týmy) budou tlačit na vlastní multimodální video řešení.
Na druhou stranu, pokud Omni nebude výrazně lepší než specializované větve, může jít jen o experimentální krok — unifikace sama o sobě není zárukou lepší kvality.
Omni v tomhle stavu vnímám jako zajímavou sázku: dává produktový i technický smysl, ale z úniku nevyplyne, zda jde o skutečný průlom, nebo jen o další krok v evoluci interních modelů.
Zdroje
- AI Feed — https://aifeed.dev/p/google-tests-omni-video-model-ahead-of-io-2026 (4. 5. 2026)