Blog

Když agenti experimentují, paměť se hádá a audit jde na řetězec

1. 5. 2026AI

Několik papírů ukazuje, že agentní systémy skutečně dělají zajímavé věci — od autonomního objevu na optickém zařízení po reprodukci studií — ale často narážejí na staré problémy v novém balení: konflikt v paměti, spodní vrstvy adaptace nebo riziko „kitsch“ v generované tvorbě.

Trochu mě zarazilo, jak rychle se téma agentů posunulo od „pomocníků“ k „samostatným badatelům“ – a jak přitom narážejí na celé spektrum praktických omezení, od toho, jak si pamatují zkušenosti, po to, kdo a jak jejich závěry ověřuje.

Agentní věda a reprodukovatelnost

LLM agent, který udělal nový fyzikální výsledek

Qiushi Discovery Engine (arXiv:2604.27092) popisuje systém, který na opravdovém optickém stolku nejen reprodukoval publikovaný experiment, ale také navrhl a ověřil dříve nehlášený fyzikální mechanismus — optickou bilineární interakci. Systém běžel dlouho (145.9M tokenů, přes 3k LLM volání) a skládá se z meta-trace paměti a dvouvrstvé architektury, která má zvládat dlouhé výzkumné trajektorie. Mně to přijde jako velký krok: agent dokázal jít od abstraktní teorie k experimentálním pozorováním. Zároveň chybí nezávislá replikace a detailní audit pipeline — když LLM zavede chybný předpoklad, výsledky mohou být přesvědčivé, ale špatně interpretované.

Reprodukovatelnost sociálních věd pomocí agentů

Paper "Read the Paper, Write the Code" (arXiv:2604.21965) zkouší, jestli agenti dokážou reprodukovat výsledky jen z textu metodiky a dat, bez přístupu k originálnímu kódu. Agentní systém umí často výsledky zrekonstruovat, ale selhání často pramení z nedostatečné specifikace v samotných článcích. To potvrzuje něco, co už tušíme: automatizace reprodukcí je reálná a užitečná, ale pořád bude potřeba lepší standardizace metodik a explicitní kontroly — agenti odhalí kritická místa, ale nevyřeší lidskou netečnost při popisu experimentů.

Falsifikační standard pro agentní analýzy

„Sound Agentic Science Requires Adversarial Experiments" (arXiv:2604.22080) volá po tom, aby agenty využívat spíš k aktivnímu hledání způsobů, jak tvrzení vyvrátit, než k produkci co nejsilnějšího vyprávění. To je rozumné: agenti zrychlí generování analýz, ale bez protiváhy se rychle stanou nástrojem potvrzování pohodlných hypotéz. Prakticky to znamená: používat adversariální či falsifikační testy jako standardní krok v pracovním toku, ne jako dodatečnou myšlenku.

Paměť, kontinuita učení a délka kontextu

Když externí paměť jen přesune problém

Papír "When Continual Learning Moves to Memory" (arXiv:2604.27003) ukazuje, že přidání externí paměti agentům problémy kontinuálního učení neodstraní — jen je přesune z parametrů modelu do mechanismu výběru a retrievalu. Autoři předkládají (k,v) framework pro oddělení reprezentace a organizace zkušeností a ukazují, že pod omezeným kontextovým oknem staré a nové zkušenosti soutěží o místo v promptu. Tohle mi dává smysl: mít paměť bez dobrého retrieveru a bez principů, co upřednostnit, vede k tomu, že agent „zapomíná“ stejně jako parametrický model — jen jiným způsobem. Chybí mi konkrétní návrhy na škálovatelné indexace, které by fungovaly v praxi na tisících hodin provozu.

Efektivita: kdy volat velký model a kdy to zvládne malý

Event-driven cascade pro „computer-use“ agenty

"Step-level Optimization for Efficient Computer-use Agents" (arXiv:2604.27151) navrhuje, aby agenty při práci s GUI běžně poháněl levný model a jen při odhalení rizika nebo zaseknutí přepnul na silnější. Hlavní nástroje jsou Stuck Monitor (detekuje smyčky/progrese) a Milestone Monitor (kontrola klíčových checkpointů). Praktické plus: výrazné snížení nákladů a latence. Otázka: jak robustní jsou tyto monitory v reálném heterogenním prostředí, kde falešné pozitivy mohou zbytečně eskalovat náklady, a falešné negativy neodhalí drift.

Hardwarovo-softwarová souhra pro multimodální modely

"Focus Session: Hardware and Software Techniques for Accelerating Multimodal Foundation Models" (arXiv:2604.21952) shrnuje, jak kombinovat mixed-precision, pruning, speculative decoding a malé-za-velké cascades (malé modely eskalují na velké, když to dává smysl). To hezky doplňuje přístup ze Step-level Optimization — princip "escalate only when needed" je teď populární nejen v softwaru, ale i v návrhu výpočetní cesty a čipu.

Adaptace modelů a architektura

Kde nasadit LoRA v hybridních modelech

"Where Should LoRA Go?" (arXiv:2604.22127) dává praktickou lekci: u hybridních modelů (attention + recurrent komponenty) není univerzální strategie pro LoRA (low-rank adapters). Překvapivě, adaptace pozornosti často dává lepší výsledky s mnohem méně parametrů, zatímco adaptace recurrent backbone může být buď konstruktivní, nebo destruktivní v závislosti na topologii. To je užitečné pro každého, kdo fine-tunuje hybridní architektury: místo „lož“ LoRA všude uvažovat o funkční roli komponent.

Učení strukturovaných reprezentací a grafů

Meta-learning pro grafové foundation modely

Mochi (arXiv:2604.22031) trénuje grafový foundation model meta-učícím způsobem, tedy na epizodách, které lépe odpovídají downstream úlohám. Autoři hlásí konkurenceschopné výsledky a 8–27× nižší trénovací čas proti nejlepším baseline. To má smysl: pokud cílíte na rychlé nasazení napříč úlohami, alignment pre-tréninku s inferencí je pragmatická volba.

Kontrola, audit a decentralizace

Decentralizované audity a on-chain záznamy

TRUST (arXiv:2604.27132) předkládá rámec pro decentralizované auditování komplexního rozumového chování agentů: HDAGs pro rozklad Chain-of-Thought, DAAN protokol pro atribuci příčiny a multi-tier konsenzus mezi computational checkery, LLM evaluátory a lidmi. Autoři tvrdí robustnost až do ~30% adversariální účasti a ukazují metriky lepší než baseline. Myšlenka auditu rozděleného mezi stroje a lidi dává smysl, ale on-chain ukládání rozhodnutí otevírá praktické otázky: kolik toho se má zapisovat, jak se řeší náklady na transakce, a jak se zajišťuje, že „privátní“ logika zůstane utajena při zachování auditu.

Sledování zdroje informace u multimodálních modelů

"Source-Modality Monitoring" (arXiv:2604.22038) řeší binding problem — jak modely sledují, odkud která informace pochází (např. z textu vs. z obrázku). Autoři zkoumají syntaktické a sémantické signály a ukazují, že při výrazném distribučním rozdílu mezi modality převažují sémantické signály. To má přímé důsledky pro auditovatelnost multimodálních agentů: pokud model „zapomene“ zdroj, může generovat závěry, které kombinují data nesmyslně.

Kreativita, důvěra a nadměrné sliby

LLMs a „kitsch" — proč je výstup někdy prázdný

Paper "LLMs Generate Kitsch" (arXiv:2604.25929) definuje kitsch jako estetiku, která je kýčovitě konzumní a povrchní — a ukazuje, že lidské hodnocení LLM výstupů často nese dojem větší kvality, ale zároveň vnímanou „hloubku" hodnotí níže. Autoři argumentují, že to plyne z tréninku na velkých korpusech, které preferují typické a bezpečné vzory. Mně to sedí: LLM umí napodobit formu, často nezachytí originální nebo kontextově rizikovou hloubku. To je důležité pro využití v kreativních rolích — modely jsou skvělé pro bohaté šablony, méně pro autentickou invenci.

Skepticky k „Auto-Relational Reasoning"

Papír "Auto-Relational Reasoning" (arXiv:2604.26507) slibuje automatizované formální rámce pro relace mezi objekty a uvádí vysoké skóre na IQ-like úlohách. Z oznámení plyne, že část práce je teoretická a prezentované výsledky mohou být limitovány velikostí modelu a dat. Osobně bych chtěla vidět open code, srovnání s moderními reasoning benchmarky a reprodukovatelné experimenty, než přijmu čísla jako relevantní ukazatel generalizace.

Co si beru s sebou

Agentní systémy už nejsou jen konzultanti — začínají dělat skutečnou vědu a automatizaci. Současně se ukazuje, že staré problémy (zapomínání, nedostatečná specifikace, auditovatelnost, a estetická prázdnota) se vrací v novém kabátě. Budu dál sledovat, jak se řeší retrieval a indexace paměti, jak se audituje agentní rozhodování a jak se do praxe zavádějí adaptivní „escalation“ mechanismy.

Zdroje

[When Continual Learning Moves to Memory — arXiv:2604.27003] — https://arxiv.org/abs/2604.27003
[TRUST: A Framework for Decentralized AI Service v.0.1 — arXiv:2604.27132] — https://arxiv.org/abs/2604.27132
[End-to-end autonomous scientific discovery on a real optical platform — arXiv:2604.27092] — https://arxiv.org/abs/2604.27092
[Step-level Optimization for Efficient Computer-use Agents — arXiv:2604.27151] — https://arxiv.org/abs/2604.27151
[Source-Modality Monitoring in Vision-Language Models — arXiv:2604.22038] — https://arxiv.org/abs/2604.22038
[Read the Paper, Write the Code: Agentic Reproduction of Social-Science Results — arXiv:2604.21965] — https://arxiv.org/abs/2604.21965
[Sound Agentic Science Requires Adversarial Experiments — arXiv:2604.22080] — https://arxiv.org/abs/2604.22080
[Where Should LoRA Go? Component-Type Placement in Hybrid Language Models — arXiv:2604.22127] — https://arxiv.org/abs/2604.22127
[Mochi: Aligning Pre-training and Inference for Efficient Graph Foundation Models via Meta-Learning — arXiv:2604.22031] — https://arxiv.org/abs/2604.22031
[Focus Session: Hardware and Software Techniques for Accelerating Multimodal Foundation Models — arXiv:2604.21952] — https://arxiv.org/abs/2604.21952
[Auto-Relational Reasoning — arXiv:2604.26507] — https://arxiv.org/abs/2604.26507
[LLMs Generate Kitsch — arXiv:2604.25929] — https://arxiv.org/abs/2604.25929