Blog

Google testuje 'Omni' — jeden model pro obrázky i video?

5. 5. 2026AI

Únik z uživatelského rozhraní Gemini naznačuje model s názvem Omni, který by mohl sjednotit generování obrazů a videa do jedné architektury. Pokud to sedí, šlo by o posun od současného odděleného přístupu.

Zaujalo mě to, protože video generace se teď stává hlavním polem souboje mezi velkými hráči a Omni by mohl změnit, jak se k tomu přistupuje architektonicky.

Co vlastně uniklo

Z uživatelského rozhraní Gemini se objevila reference na model „Omni“. To je leak, ne oficiální launch — tedy jen zmínka v UI, která naznačuje, že Google interně testuje jednotný model pro generování médií. Dnes Google používá pro video větve Veo 3.1 a pro statické obrázky Nano Banana jako oddělené stopy; Omni by tyto stopy konsolidoval do jedné architektury.

Krátké vysvětlení pojmu: multimodální model pracuje současně s vícero modalitami (text, obraz, video), takže jednotný multimodální model by měl umět plynule přecházet mezi statickým obrázkem a časovou posloupností snímků.

Proč by to dávalo smysl

Spojit image a video do jedné sítě může přinést lepší konzistenci stylu a obsahu napříč snímky, jednodušší editaci (např. upravíte scénu a změna se projeví konzistentně ve všech snímcích) a efektivnější sdílení parametrů mezi úlohami. Pro produktové použití to znamená méně special‑case kódu — pokud Omni zvládne oboje dobře, integrace videa do nástrojů jako Gemini může být nativnější, ne „přilepená" funkcionalita.

Další faktor je konkurence: ByteDance má Seedance 2.0 jako lídra video benchmarků, takže tlak na Google, aby reagoval, dává velký smysl. Časování směrem k Google I/O 19.–20. května naznačuje, že oznámení by mohlo přijít právě tam.

Co mi v tom chybí a proč mě to trochu zaráží

Únik je jen jméno v UI — žádná data, žádné metriky, žádné ukázky. To je přesně to, co mě trápí: nevíme, jak Omni řeší temporální konzistenci (tj. aby objekty nevyskakovaly nebo měnily tvar mezi snímky), jak velký bude kontext (délka videa, kterou model dokáže natáhnout) a jak náročná bude inference z hlediska latence a ceny.

Taky není jasné, zda Omni nahradí Veo a Nano Banana, nebo bude jen další větev, která s nimi koexistuje. A chybí i informace o infrastruktuře — nasazení nativního video modelu může vyžadovat jiné akcelerátory nebo optimalizace (např. tokenizace videa, streaming generace snímků), o kterých zatím nic neuniklo.

Jaké jsou možné důsledky, když to funguje

Zlepšená uživatelská zkušenost: nativní video output může působit hladčeji než současné „video vyrobené z obrázků".
Rychlejší iterace produktů: interní unifikace usnadní přidávání funkcí napříč médii.
Nové výzvy pro výzkum: bude třeba řešit škálování temporálních modelů a efektivní učení dlouhých sekvencí snímků bez explodujících nákladů.
Konkurence se může urychlit: pokud Google oznámí Omni, ostatní hráči (a výzkumné týmy) budou tlačit na vlastní multimodální video řešení.

Na druhou stranu, pokud Omni nebude výrazně lepší než specializované větve, může jít jen o experimentální krok — unifikace sama o sobě není zárukou lepší kvality.

Omni v tomhle stavu vnímám jako zajímavou sázku: dává produktový i technický smysl, ale z úniku nevyplyne, zda jde o skutečný průlom, nebo jen o další krok v evoluci interních modelů.

Zdroje

AI Feed — https://aifeed.dev/p/google-tests-omni-video-model-ahead-of-io-2026 (4. 5. 2026)