Blog

Claude Opus 4.8: drobný skok, velký důraz na chování modelu

Anthropic vydal Opus 4.8 šest týdnů po 4.7 — stejné ceny, 1M tokenů kontextu, Fast Mode levnější a rychlejší a hlavní změna není v bodech na benchmarku, ale v tom, jak model „chová“ svoje odpovědi při dlouhých agentních bězích.

Opus 4.8 mě zaujal, protože to není jen o pár procentech navíc na benchmarcích — Anthropic primárně sází na to, že model lépe odhadne vlastní nejistotu a déle spolehlivě poběží jako agent. Pro lidi, kteří modely opravdu nasazují do workflow, je to důležitější než další zlepšení MMLU.

Co Opus 4.8 fakt přináší

Claude Opus 4.8 vyšel 28. května 2026 a běží pod id claude-opus-4-8 — má kontextové okno 1M tokenů (tedy model může udržet obrovské množství konverzačního nebo kódového kontextu). Cena zůstává na 5/25 USD za milion vstupních/výstupních tokenů. Novinky, které stojí za to: Fast Mode (2,5× rychlejší za třetinu dřívější ceny), Dynamic Workflows (spouštění stovek paralelních subagentů jako research preview), prompt caching s až 90% úsporou, batch processing s ~50% úsporou a lepší tokenová efektivita než u 4.7. Messages API umí teď systémové vstupy uvnitř pole zpráv, takže se instrukce dají měnit během běhu bez rozbijení cache.

Krátce vysvětleno: benchmark je standardní test schopností modelu, agent je model, který vykonává kroky/úlohy samostatně (např. volá nástroje, spouští subúlohy).

Proč mě zaujalo to „chování" víc než čísla

Na čistých benchmarcích jde o inkrementálních 3–5 procentních bodů — SWE-Bench Pro 69,2 % vs 64,3 % u 4.7. Ale to, co Anthropic zdůrazňuje, je méně předčasných hlášení „hotovo“, častější upozorňování na nejistotu a čtyřnásobně méně přehlédnutých chyb v kódu. To jsou kvalitativní změny, které benchmarky špatně zachytí: lepší perzistence a korektní sebe-hodnocení snižují množství následné lidské práce na kontrolách.

Rané reakce partnerů (Harvey, Hebbia, Bridgewater) to potvrzují — začali vidět lepší přesnost v právní a finanční dokumentaci a více proaktivních checků. Jenže všechna ta čísla a tvrzení jsou momentálně self-reporty Anthropic nebo interní testy partnerů. To mi vadí: tvrzení o „nejupřímnějším modelu" bez transparentní metodologie kalibrace jistoty zůstává marketingovým nárokem, dokud ho někdo nezáloží nezávislým testem.

Kdy to má smysl nasadit a kdy ne

Dává smysl přepnout, pokud:

  • děláte dlouhé agentní coding sessions, kde model dřív prskal "hotovo" dřív než měl,
  • potřebujete, aby model aktivně flagoval nejistotu (audit, právo, finance),
  • využijete Fast Mode kvůli rychlosti a ceně.

Zvažte konkurenci, pokud:

  • primárně pracujete v terminálu — na Terminal-Bench pořád vede GPT-5.5 (74,6 % vs 78,2 % u GPT-5.5),
  • hledáte co nejlevnější řešení — levné čínské modely mají jinde lepší cenu/výkon,
  • chcete nezávisle ověřená data — většina výsledků je zatím self-report.

Co mi v tom chybí a na co počkat

Chybí mi jasná metodika, jak měří „upřímnost" nebo kalibraci jistoty — Anthropic to nijak detailně nevysvětluje. Dynamic Workflows zní slibně (parallel subagents je přesně to, co Google Antigravity ukázal), ale je to research preview, takže produkční spolehlivost a škálovatelnost musí někdo ověřit v reálných projektech. Také bych rád viděl nezávislá srovnání od BridgeBench, CursorBench a dalších, které doplní self-reporty.

Mě osobně přesvědčilo, že tahle generace upřednostňuje chování modelu (perzistence, sebehodnocení) před dalším marginalním nárůstem bodů na benchmarku. To vyhovuje reálným případům použití, kde omyly stojí reálné peníze a čas.

Opus 4.8 není revoluce — je to promyšlený, praktický update, který dává smysl tam, kde modely běží dlouho a samostatně. Jestli je to pro vás důvod přepnout, závisí na tom, jestli potřebujete lepší chování nebo čistý výkon v terminálu.

Zdroje

Došlo k neočekávané chybě. Obnovit 🗙

Rejoining the server...

Rejoin failed... trying again in seconds.

Failed to rejoin.
Please retry or reload the page.

The session has been paused by the server.

Failed to resume the session.
Please retry or reload the page.