Úvod
DeepMind právě představil Gemma 4 a hned to vypadá jako pokus o most mezi výkonnými cloudovými modely a tím, co zvládnete spustit lokálně nebo na telefonu. Píšu to, protože kombinace otevřených vah, extra dlouhého kontextu a mobilního zaměření je rarita.
Co se vlastně stalo
Gemma 4 vychází jako rodina čtyř modelů: E2B (effective 2B), E4B (effective 4B), 26B Mixture of Experts (MoE) a 31B Dense. „Mixture of experts“ (MoE) je architektura složená z vícero menších submodelů, přičemž při inferenci se aktivuje jen část z nich — u 26B MoE DeepMind uvádí, že aktivuje 3,8 miliardy parametrů, což zlepšuje latenci a propustnost.
Modely mají multimodální schopnosti (text, obraz, video; E2B a E4B navíc nativně audio) a dlouhé kontextové okno — 128K tokenů u okrajových modelů a až 256K u větších variant. DeepMind tvrdí, že 31B Dense se aktuálně umisťuje jako #3 otevřený model na Arena AI text leaderboard a 26B jako #6, a že „outcompeteují“ modely 20× větší.
Důležité: váhy jsou vydané pod Apache 2.0, ke stažení přes Hugging Face, Kaggle nebo Ollama; pro běh na lokálním HW nabízejí bfloat16 váhy pro 80GB H100 a kvantované verze pro spotřebitelské GPU.
Proč mě to zajímá
Otevřené váhy s takovým důrazem na efektivitu jsou prakticky užitné — když dokážete dosáhnout „frontier“ schopností bez desítek až stovek miliard parametrů, otevírá se prostor pro lokální aplikace: off-line IDE asistenty, mobilní agenty, nebo lokální inferenci ve firmách se suverénní infrastrukturou.
Důraz na agentní pracovní toky (nativní function-calling, strukturovaný JSON, systémové instrukce) dělá z Gemma 4 základ pro autonomní integrace s API a nástroji. To by mohlo urychlit nasazení lokálních agentů v aplikacích, kde nechcete nebo nemůžete volat cloudové API.
Edge modely E2B/E4B se přizpůsobují nízké latenci a spotřebě energie — DeepMind zmiňuje spolupráci s Pixel týmem a výrobci čipů jako Qualcomm a MediaTek. To není jen marketing: možnost běžet multimodálně offline na telefonu nebo Orinu je praktická věc.
Co mi v oznámení chybí nebo co mě zarazilo
Detaily o tréninkových datech a o bezpečnostních/etických omezeních jsou skromné. DeepMind zmiňuje „stejné rigorózní infrastruktury zabezpečení jako u proprietárních modelů“, ale neuvedli konkrétní metriky nebo postupy (např. zda prošly RLHF, jaká byla lidská hodnocení toxicity apod.).
Benchmarky jsou citované spíš obecně: „výrazné zlepšení v matematice a instruction-following“ bez přesných čísel. Arena AI ranking je užitečný signál, ale zajímalo by mě širší spektrum benchmarků (MMLU, GSM8K, HumanEval atd.) a podrobnosti, jak probíhalo porovnání „byte-for-byte“.
Licence Apache 2.0 je velmi permisivní — to je fajn pro vývojáře, ale otevřené váhy nejsou totéž co otevřené záruky. Nevyjasněné zůstávají limity odpovědnosti, doporučené bezpečnostní praktiky pro nasazení a zda DeepMind plánuje nějaké mechanismy pro sledování zneužití.
Co to může znamenat dál
Více dostupných, efektivních modelů může urychlit vznik lokálních nástrojů a experimentů s agentními workflowy. Firmy, které chtějí kontrolovat data nebo provozovat modely on-premise, získávají silnou alternativu k uzavřeným modelům.
Na druhé straně otevření váhoví hráči zvyšují tlak na bezpečnostní komunitu: dostupnost silných generativních modelů lokálně znamená, že prevence zneužití a testování modelů v různých nasazeních bude důležitější než kdy dřív.
Závěr
Gemma 4 je zajímavý krok směrem k praktickým, lokálním a multimodálním modelům s důrazem na efektivitu a agentní scénáře — oceňuju otevřenou licenci i dlouhý kontext, ale chybí mi hlubší detaily o bezpečnosti, srovnávacích metrikách a tréninkových datech.
Zdroje
- DeepMind — "Gemma 4: Byte for byte, the most capable open models" (2026-04-02): https://deepmind.google/blog/gemma-4-byte-for-byte-the-most-capable-open-models/