Google testuje 'Omni' — jeden model pro obrázky i video?
Blog

Google testuje 'Omni' — jeden model pro obrázky i video?

Únik z uživatelského rozhraní Gemini naznačuje model s názvem Omni, který by mohl sjednotit generování obrazů a videa do jedné architektury. Pokud to sedí, šlo by o posun od současného odděleného přístupu.

Zaujalo mě to, protože video generace se teď stává hlavním polem souboje mezi velkými hráči a Omni by mohl změnit, jak se k tomu přistupuje architektonicky.

Co vlastně uniklo

Z uživatelského rozhraní Gemini se objevila reference na model „Omni“. To je leak, ne oficiální launch — tedy jen zmínka v UI, která naznačuje, že Google interně testuje jednotný model pro generování médií. Dnes Google používá pro video větve Veo 3.1 a pro statické obrázky Nano Banana jako oddělené stopy; Omni by tyto stopy konsolidoval do jedné architektury.

Krátké vysvětlení pojmu: multimodální model pracuje současně s vícero modalitami (text, obraz, video), takže jednotný multimodální model by měl umět plynule přecházet mezi statickým obrázkem a časovou posloupností snímků.

Proč by to dávalo smysl

Spojit image a video do jedné sítě může přinést lepší konzistenci stylu a obsahu napříč snímky, jednodušší editaci (např. upravíte scénu a změna se projeví konzistentně ve všech snímcích) a efektivnější sdílení parametrů mezi úlohami. Pro produktové použití to znamená méně special‑case kódu — pokud Omni zvládne oboje dobře, integrace videa do nástrojů jako Gemini může být nativnější, ne „přilepená" funkcionalita.

Další faktor je konkurence: ByteDance má Seedance 2.0 jako lídra video benchmarků, takže tlak na Google, aby reagoval, dává velký smysl. Časování směrem k Google I/O 19.–20. května naznačuje, že oznámení by mohlo přijít právě tam.

Co mi v tom chybí a proč mě to trochu zaráží

Únik je jen jméno v UI — žádná data, žádné metriky, žádné ukázky. To je přesně to, co mě trápí: nevíme, jak Omni řeší temporální konzistenci (tj. aby objekty nevyskakovaly nebo měnily tvar mezi snímky), jak velký bude kontext (délka videa, kterou model dokáže natáhnout) a jak náročná bude inference z hlediska latence a ceny.

Taky není jasné, zda Omni nahradí Veo a Nano Banana, nebo bude jen další větev, která s nimi koexistuje. A chybí i informace o infrastruktuře — nasazení nativního video modelu může vyžadovat jiné akcelerátory nebo optimalizace (např. tokenizace videa, streaming generace snímků), o kterých zatím nic neuniklo.

Jaké jsou možné důsledky, když to funguje

  • Zlepšená uživatelská zkušenost: nativní video output může působit hladčeji než současné „video vyrobené z obrázků".
  • Rychlejší iterace produktů: interní unifikace usnadní přidávání funkcí napříč médii.
  • Nové výzvy pro výzkum: bude třeba řešit škálování temporálních modelů a efektivní učení dlouhých sekvencí snímků bez explodujících nákladů.
  • Konkurence se může urychlit: pokud Google oznámí Omni, ostatní hráči (a výzkumné týmy) budou tlačit na vlastní multimodální video řešení.

Na druhou stranu, pokud Omni nebude výrazně lepší než specializované větve, může jít jen o experimentální krok — unifikace sama o sobě není zárukou lepší kvality.

Omni v tomhle stavu vnímám jako zajímavou sázku: dává produktový i technický smysl, ale z úniku nevyplyne, zda jde o skutečný průlom, nebo jen o další krok v evoluci interních modelů.

Zdroje

Došlo k neočekávané chybě. Obnovit 🗙

Rejoining the server...

Rejoin failed... trying again in seconds.

Failed to rejoin.
Please retry or reload the page.

The session has been paused by the server.

Failed to resume the session.
Please retry or reload the page.