Blog

Kimi K2.6, Muse Spark a agentní éra: jak si vybrat model a nezbankrotovat

28. 4. 2026AI

Moonshot otevřel Kimi K2.6 a rozdmýchal diskusi o tom, kdy dát přednost otevřeným vahám a paralelním agentům před uzavřenými frontier modely; mezitím firmy přehodnocují ceny a nasazení agentních systémů.

Trochu mě zarazilo, jak rychle se poslední dny přeskupily karty kolem agentních workflow a otevřených vah. Moonshotův Kimi K2.6 udělal rámus tím, že nabídnul open weights + nativní orchestrace hejn agentů za cenu, která se v enterprise scénářích sluší s rozpočtem — a Anthropic i další na to reagují změnou obchodních modelů.

Modely a architektury

Kimi K2.6: otevřené váhy, swarm agentů a ostře ceněný trade‑off

Moonshot AI pustil Kimi K2.6 — mixture-of-experts (MoE) architekturu s údajně 1 bilionem parametrů, kontextovým oknem 256k tokenů a nativní podporou orchestrace až stovek sub-agentů. Model je dostupný jako open weights (na Hugging Face) a přes Moonshot API; cena API firmou uváděna 0,60 USD za milion vstupních tokenů a 3,00 USD za milion výstupních tokenů.

Mně osobně přijde zásadní, že K2.6 nehraje jen na výkon, ale na ekonomiku a kontrolu: možnost provozu na vlastním hardware a otevřené váhy mění otázku z "který model je nejlepší" na "který model stačí za danou cenu, s danou kontrolou a rizikem". Nezapomínejte na limity — 256K kontextu je slabší než 1M u některých konkurentů a většina benchmarků při releasu byla publikována Moonshotem; přesto BridgeBench Debugging (nezávislé měření) dává K2.6 momentálně první místo.

Co mi chybí: veřejná MRCR data (multi-round coreference) a více nezávislých testů long‑context stability. Architektura agent‑swarmu je zajímavá, ale zvyšuje i operační složitost — 300 sub-agentů znamená o mnoho víc bodů, kde se může něco pokazit.

Muse Spark: Meta šlape na plyn, ale opět utajuje detaily

Meta představila Muse Spark — proprietární multimodální model s 262k kontextem, třemi režimy (Instant, Thinking, Contemplating) a silou v multimodálních a zdravotních úlohách. Benchmarky ukazují, že Spark exceluje v data‑sensitive scénářích (CharXiv, MMMU Pro, zdravotní testy), ale zaostává v abstraktním reasoning a agentním kódování.

Co mě zarazilo: Meta tentokrát nepublikuje velikost modelu ani architektonické detaily. To je obrat od dřívější veřejnější politiky a v kontextu Llama 4 aféry (manipulace s benchmarky) nutí k opatrnosti. Pozitivní je, že Artificial Analysis dostal early access a potvrdil mnoho tvrzení — ale bez API/parametrů zůstává těžké posoudit poměr cena/výkon.

Nástroje a workflow

Claude Code Routines: automatizace bez otevřeného laptopu — s omezeními

Anthropic přidalo Routines do Claude Code — uložené session, které se spouštějí podle schedule (cron), přes API endpoint nebo na GitHub události. To mění Claude Code z interaktivního nástroje na komponentu CI/CD/automation. Praktická síla je v tom, že Routine umí spustit session autonomně v cloudu a vrátit výsledky (draft PR, triage alertů apod.).

Ale research preview není produkční ready: denní limity, žádné týmové sdílení, GitHub trigger s hodinovým capem a absence automatického retry jsou reálná omezení. Do produkce bych Routines viděla jako slibnou součást architektury, ne jako okamžité náhrady za dobře otestované Actions či Jenkins joby.

Cursor 3 a Composer 2: IDE přeuspořádané kolem agentů

Cursor 3 přebudovává vývojové prostředí na agent‑first konzoli a zároveň představil Composer 2 — vlastní model Anysphere postavený na Kimi K2.5 s tvrzenými cenovými výhodami. Cursor dělá handoff mezi lokálním a cloudovým prostředím, paralelní agenty a tržiště pluginů.

Na jedné straně je to logická evoluce UI pro agentní práci. Na druhé straně je tu cenová kontroverze a technické problémy hlášené komunitou (pády, tiché reverze kódu). Composer 2 dává výkon za nižší cenu, ale výsledky jsou zatím z firmy a nezávislé ověření chybí.

Dokumentace jako první třída občan v agentních systémech

Praktický článek o tom, jak strukturovat docs/ pro Claude Code, mi přišel užitečný: docs jako knowledge base pro agenta, CLAUDE.md s odkazy na relevantní soubory a sokratovské dotazování před implementací — to jsou konkrétní taktiky, jak snížit tokenovou spotřebu a chyby z tichých předpokladů. Pro provoz agentů je to méně sexy, ale důležitější než UI enhancement.

Ekonomika, nasazení a obchodní rozhodnutí

Anthropic mění cenový model: seat je levnější, spotřeba tokenů povinná

Anthropic přešel na hybridní model: nižší seat fee (technický seat $20/měsíc) a povinný závazek spotřeby tokenů; API slevy se ruší. Důvodem je masivní nárůst inference nákladů způsobený agentními workflow, které násobí spotřebu tokenů. Pro těžké uživatele to může znamenat 2–3× vyšší účty.

Mně osobně to přijde nevyhnutelné: když agentní smyčky a stovky tool‑callů konzumují tokeny kvadraticky, paušál prostě nevydrží. Pro firmy to ale znamená nové nutnosti — měřit TCO podle tokenové spotřeby, zavádět limity iterací, čistit kontext a vyjednávat roll‑over kredity.

Ekonomický dopad K2.6 a drop‑in kompatibilita

Kimi K2.6 je finančně atraktivní — nižší blended cena podle Moonshotu výrazně konkuruje Opus/GPT. Důležité je, že Moonshot nabízí Anthropic‑compatible API drop‑in, což pro existující Claude Code integrace znamená relativně jednoduchý přechod na levnější backend. To může urychlit adopci K2.6 v praxi.

Výzkum, robustnost a infrastrukturní problémy

Kernel Contracts: psaní smlouvy pro ML kernely

Nový článek na arXiv navrhuje jazyk pro "kernel contracts" — formální specifikaci toho, co má ML kernel dělat (precision, ordering, exceptional behavior). To je potřeba zejména když různé stacky (NVIDIA vs AMD) dávají odlišné výsledky. Jsem ráda, že někdo dává do pořádku tuhle bordel‑vrstvu; v praxi to může zlepšit reprodukovatelnost a debuggování infra chyb.

CoFi‑PGMA: kreditace v multi‑agentním RL

CoFi‑PGMA řeší trénink multi‑agentních LLM systémů, kde je zpětná vazba filtrována (např. routing nebo společné odměny). Návrh používá counterfactual estimátory a marginal contribution pro lepší credit assignment. Pro systémy jako K2.6 nebo Contemplating režimy Muse Spark je to relevantní — bez správného tréninku jednotlivých podagentů se multi‑agent stack snadno zhorší.

Memanto: paměť pro dlouhodobé agenty bez složitých grafů

Memanto představuje typed semantic memory se třinácti typy záznamů a deterministic retrieval bez indexační režie; teoreticky dosahuje solidních skóre na LongMemEval a LoCoMo. Pokud to pragmaticky drží latence pod 90 ms a snižuje ingestion overhead, může to být jeden z technických stavebních kamenů pro produkční long‑horizon agentní systémy.

Příklady z praxe a vzdělávání

Choco + OpenAI: případová studie nasazení

OpenAI ukazuje případ Choco, který využívá OpenAI API pro optimalizaci distribuce potravin. Jsou to obchodní příklady, nic průlomového pro akademii — ale užitečné připomenutí, že u správně navrženého systému se AI agenty dá dělat reálný ROI.

Google + Kaggle kurz: kdo se chce učit agenty

Google a Kaggle vrací pětidenní kurz AI Agents Intensive v červnu — bezplatný, hands‑on s capstone projektem. Pro týmy, které chtějí ubrat teoretické kecy a zkusit si produkční agenťárnu, je to dobrá příležitost.

Co stojí za pozornost

Dohromady to dává jasný obraz: agent‑first nástroje a modely s otevřenými vahami (K2.6, Composer 2) přitahují zájem, protože dávají kontrolu a lepší ekonomiku; současně proprietární frontier modely (Muse Spark) ukazují, že opatrné investice do datové kvality vracejí silné výsledky v úlohách, kde na datech záleží. Cena nasazení agentů roste a firmy musejí přestat uvažovat o AI jako o paušálním SaaS — je to infrastrukturní položka, kterou je třeba plánovat.

Mně osobně bude zajímat tři věci: nezávislá verifikace Kimi K2.6 long‑context chování, jak producenti modelů vyřeší credit assignment v multi‑agentích RL (CoFi‑PGMA) a praktické vyzrání paměťových vrstev pro dlouhé sessions (Memanto). To jsou technické body, které rozhodnou, jestli agenti zůstanou experimentem, nebo se stanou spolehlivou součástí stacku.

Zdroje

[Kimi K2.6: model otevřených vah od Moonshot AI] — https://www.vibecoding.cz/articles/ostatni/kimi-k2-6-model-otevrenych-vah-ktery-meni-otazku-jak-vybirat-mezi-ai-modely/
[Claude Code Routines: automatizace bez otevřeného laptopu] — https://www.vibecoding.cz/articles/claude-code/claude-code-routines-automatizace-bez-otevreneho-laptopu/
[Choco uses OpenAI APIs for food distribution (customer story)] — https://openai.com/index/choco
[Cursor 3: IDE ustupuje agentům a Composer 2] — https://www.vibecoding.cz/articles/cursor/cursor-3-ide-ustupuje-agentum-je-to-budoucnost-nebo-sazka-na-nejistotu/
[Google + Kaggle AI Agents Intensive course (June 2026)] — https://blog.google/innovation-and-ai/technology/developers-tools/kaggle-genai-intensive-course-vibe-coding-june-2026/
[The next phase of the Microsoft OpenAI partnership] — https://openai.com/index/next-phase-of-microsoft-partnership
[Kernel Contracts: specification language for ML kernels (arXiv)] — https://arxiv.org/abs/2604.22032
[Anthropic mění cenový model: seat vs tokeny] — https://www.vibecoding.cz/articles/claude-code/ai-vyvoj-zdrazuje-anthropic-meni-cenovy-model/
[Dokumentace v Claude Code: strategie pro úspěch] — https://www.vibecoding.cz/articles/claude-code/dokumentace-v-claude-code-strategie-která-funguje/
[Muse Spark: Meta nový proprietární frontier model] — https://www.vibecoding.cz/articles/ostatni/muse-spark-meta-se-vraci-do-hry-ale-do-jake/
[CoFi-PGMA: Counterfactual Policy Gradients for multi-agent LLMs (arXiv)] — https://arxiv.org/abs/2604.22785
[Memanto: typed semantic memory for long‑horizon agents (arXiv)] — https://arxiv.org/abs/2604.22085
Dokumentace v Claude Code: strategie která funguje