Když agenti experimentují, paměť se hádá a audit jde na řetězec
Blog

Když agenti experimentují, paměť se hádá a audit jde na řetězec

Několik papírů ukazuje, že agentní systémy skutečně dělají zajímavé věci — od autonomního objevu na optickém zařízení po reprodukci studií — ale často narážejí na staré problémy v novém balení: konflikt v paměti, spodní vrstvy adaptace nebo riziko „kitsch“ v generované tvorbě.

Trochu mě zarazilo, jak rychle se téma agentů posunulo od „pomocníků“ k „samostatným badatelům“ – a jak přitom narážejí na celé spektrum praktických omezení, od toho, jak si pamatují zkušenosti, po to, kdo a jak jejich závěry ověřuje.

Agentní věda a reprodukovatelnost

LLM agent, který udělal nový fyzikální výsledek

Qiushi Discovery Engine (arXiv:2604.27092) popisuje systém, který na opravdovém optickém stolku nejen reprodukoval publikovaný experiment, ale také navrhl a ověřil dříve nehlášený fyzikální mechanismus — optickou bilineární interakci. Systém běžel dlouho (145.9M tokenů, přes 3k LLM volání) a skládá se z meta-trace paměti a dvouvrstvé architektury, která má zvládat dlouhé výzkumné trajektorie. Mně to přijde jako velký krok: agent dokázal jít od abstraktní teorie k experimentálním pozorováním. Zároveň chybí nezávislá replikace a detailní audit pipeline — když LLM zavede chybný předpoklad, výsledky mohou být přesvědčivé, ale špatně interpretované.

Reprodukovatelnost sociálních věd pomocí agentů

Paper "Read the Paper, Write the Code" (arXiv:2604.21965) zkouší, jestli agenti dokážou reprodukovat výsledky jen z textu metodiky a dat, bez přístupu k originálnímu kódu. Agentní systém umí často výsledky zrekonstruovat, ale selhání často pramení z nedostatečné specifikace v samotných článcích. To potvrzuje něco, co už tušíme: automatizace reprodukcí je reálná a užitečná, ale pořád bude potřeba lepší standardizace metodik a explicitní kontroly — agenti odhalí kritická místa, ale nevyřeší lidskou netečnost při popisu experimentů.

Falsifikační standard pro agentní analýzy

„Sound Agentic Science Requires Adversarial Experiments" (arXiv:2604.22080) volá po tom, aby agenty využívat spíš k aktivnímu hledání způsobů, jak tvrzení vyvrátit, než k produkci co nejsilnějšího vyprávění. To je rozumné: agenti zrychlí generování analýz, ale bez protiváhy se rychle stanou nástrojem potvrzování pohodlných hypotéz. Prakticky to znamená: používat adversariální či falsifikační testy jako standardní krok v pracovním toku, ne jako dodatečnou myšlenku.

Paměť, kontinuita učení a délka kontextu

Když externí paměť jen přesune problém

Papír "When Continual Learning Moves to Memory" (arXiv:2604.27003) ukazuje, že přidání externí paměti agentům problémy kontinuálního učení neodstraní — jen je přesune z parametrů modelu do mechanismu výběru a retrievalu. Autoři předkládají (k,v) framework pro oddělení reprezentace a organizace zkušeností a ukazují, že pod omezeným kontextovým oknem staré a nové zkušenosti soutěží o místo v promptu. Tohle mi dává smysl: mít paměť bez dobrého retrieveru a bez principů, co upřednostnit, vede k tomu, že agent „zapomíná“ stejně jako parametrický model — jen jiným způsobem. Chybí mi konkrétní návrhy na škálovatelné indexace, které by fungovaly v praxi na tisících hodin provozu.

Efektivita: kdy volat velký model a kdy to zvládne malý

Event-driven cascade pro „computer-use“ agenty

"Step-level Optimization for Efficient Computer-use Agents" (arXiv:2604.27151) navrhuje, aby agenty při práci s GUI běžně poháněl levný model a jen při odhalení rizika nebo zaseknutí přepnul na silnější. Hlavní nástroje jsou Stuck Monitor (detekuje smyčky/progrese) a Milestone Monitor (kontrola klíčových checkpointů). Praktické plus: výrazné snížení nákladů a latence. Otázka: jak robustní jsou tyto monitory v reálném heterogenním prostředí, kde falešné pozitivy mohou zbytečně eskalovat náklady, a falešné negativy neodhalí drift.

Hardwarovo-softwarová souhra pro multimodální modely

"Focus Session: Hardware and Software Techniques for Accelerating Multimodal Foundation Models" (arXiv:2604.21952) shrnuje, jak kombinovat mixed-precision, pruning, speculative decoding a malé-za-velké cascades (malé modely eskalují na velké, když to dává smysl). To hezky doplňuje přístup ze Step-level Optimization — princip "escalate only when needed" je teď populární nejen v softwaru, ale i v návrhu výpočetní cesty a čipu.

Adaptace modelů a architektura

Kde nasadit LoRA v hybridních modelech

"Where Should LoRA Go?" (arXiv:2604.22127) dává praktickou lekci: u hybridních modelů (attention + recurrent komponenty) není univerzální strategie pro LoRA (low-rank adapters). Překvapivě, adaptace pozornosti často dává lepší výsledky s mnohem méně parametrů, zatímco adaptace recurrent backbone může být buď konstruktivní, nebo destruktivní v závislosti na topologii. To je užitečné pro každého, kdo fine-tunuje hybridní architektury: místo „lož“ LoRA všude uvažovat o funkční roli komponent.

Učení strukturovaných reprezentací a grafů

Meta-learning pro grafové foundation modely

Mochi (arXiv:2604.22031) trénuje grafový foundation model meta-učícím způsobem, tedy na epizodách, které lépe odpovídají downstream úlohám. Autoři hlásí konkurenceschopné výsledky a 8–27× nižší trénovací čas proti nejlepším baseline. To má smysl: pokud cílíte na rychlé nasazení napříč úlohami, alignment pre-tréninku s inferencí je pragmatická volba.

Kontrola, audit a decentralizace

Decentralizované audity a on-chain záznamy

TRUST (arXiv:2604.27132) předkládá rámec pro decentralizované auditování komplexního rozumového chování agentů: HDAGs pro rozklad Chain-of-Thought, DAAN protokol pro atribuci příčiny a multi-tier konsenzus mezi computational checkery, LLM evaluátory a lidmi. Autoři tvrdí robustnost až do ~30% adversariální účasti a ukazují metriky lepší než baseline. Myšlenka auditu rozděleného mezi stroje a lidi dává smysl, ale on-chain ukládání rozhodnutí otevírá praktické otázky: kolik toho se má zapisovat, jak se řeší náklady na transakce, a jak se zajišťuje, že „privátní“ logika zůstane utajena při zachování auditu.

Sledování zdroje informace u multimodálních modelů

"Source-Modality Monitoring" (arXiv:2604.22038) řeší binding problem — jak modely sledují, odkud která informace pochází (např. z textu vs. z obrázku). Autoři zkoumají syntaktické a sémantické signály a ukazují, že při výrazném distribučním rozdílu mezi modality převažují sémantické signály. To má přímé důsledky pro auditovatelnost multimodálních agentů: pokud model „zapomene“ zdroj, může generovat závěry, které kombinují data nesmyslně.

Kreativita, důvěra a nadměrné sliby

LLMs a „kitsch" — proč je výstup někdy prázdný

Paper "LLMs Generate Kitsch" (arXiv:2604.25929) definuje kitsch jako estetiku, která je kýčovitě konzumní a povrchní — a ukazuje, že lidské hodnocení LLM výstupů často nese dojem větší kvality, ale zároveň vnímanou „hloubku" hodnotí níže. Autoři argumentují, že to plyne z tréninku na velkých korpusech, které preferují typické a bezpečné vzory. Mně to sedí: LLM umí napodobit formu, často nezachytí originální nebo kontextově rizikovou hloubku. To je důležité pro využití v kreativních rolích — modely jsou skvělé pro bohaté šablony, méně pro autentickou invenci.

Skepticky k „Auto-Relational Reasoning"

Papír "Auto-Relational Reasoning" (arXiv:2604.26507) slibuje automatizované formální rámce pro relace mezi objekty a uvádí vysoké skóre na IQ-like úlohách. Z oznámení plyne, že část práce je teoretická a prezentované výsledky mohou být limitovány velikostí modelu a dat. Osobně bych chtěla vidět open code, srovnání s moderními reasoning benchmarky a reprodukovatelné experimenty, než přijmu čísla jako relevantní ukazatel generalizace.

Co si beru s sebou

Agentní systémy už nejsou jen konzultanti — začínají dělat skutečnou vědu a automatizaci. Současně se ukazuje, že staré problémy (zapomínání, nedostatečná specifikace, auditovatelnost, a estetická prázdnota) se vrací v novém kabátě. Budu dál sledovat, jak se řeší retrieval a indexace paměti, jak se audituje agentní rozhodování a jak se do praxe zavádějí adaptivní „escalation“ mechanismy.

Zdroje

Došlo k neočekávané chybě. Obnovit 🗙

Rejoining the server...

Rejoin failed... trying again in seconds.

Failed to rejoin.
Please retry or reload the page.

The session has been paused by the server.

Failed to resume the session.
Please retry or reload the page.