Když agenti doručují: dokumenty, obchodování i zdravotní asistence
Blog

Když agenti doručují: dokumenty, obchodování i zdravotní asistence

Několik novinek ukazuje, že dnes rozhoduje víc než jen model — jde o promyšlené promptování, operační vrstvu a testy v reálném prostředí. Zároveň vyplouvají nové slabiny v bezpečnosti a vyhledávání agentů.

Trochu mě zarazilo, jak rychle se teď téma "model versus okolí" posouvá z teoretických debat do konkrétních nasazení — a to jak do firemních workflow, tak do robotiky nebo on‑chain obchodování. Mám pocit, že tenhle týden platí jednoduché pravidlo: dobrý model bez dobré architektury a testů často nestačí.

Modely a architektury

Nemotron 3 Nano Omni: multimodální dlouhý kontext od NVIDIE

NVIDIA předvedla Nemotron 3 Nano Omni jako model pro dlouhý kontext a multimodální úlohy (text, dokumenty, audio, video). Multimodální znamená, že model zpracovává různá média najednou. Z Hugging Face článku je jasné, že jde o snahu mít jeden univerzální „agent“ pro dokumentové a mediální práce, ale chybí mi konkrétní srovnání s konkurencí a metriky pro reálné nasazení — hlavně latence a cena inference na praktických scénářích.

UniMatrix: strukturovaný rekurentní stav s tvrdými poučkami

UniMatrix (Associative‑State Universal Transformers) zkoumá, jestli sdílený rekurentní blok může nahradit část transformeru a být parametricky efektivní. Hlavní zjištění: na WikiText‑2 dosahují drobného zlepšení (5.083–5.084 bits/byte vs 5.124 baseline), ale na asociativním recallu je klasický transformer dál — dokud do modelu nepřidáte explicitní sparse pointer routing, který pak výkon dramaticky zvedne. To potvrzuje šablonu, kterou už známe: kompaktní stav je fajn, ale pro přesné dlouhodobé vyhledávání potřebujete nějaký explicitní ukazatel (pointer) nebo routing.

AGEL‑Comp: neuro‑symbolické kroky k lepší kompozici

AGEL‑Comp z arXivu kombinuje neuronové sítě a symbolické postupy (neuro‑symbolic — spojení NN a logiky), včetně Causal Program Graphu (světový model jako hrana‑směrovaný hypergraf) a ILP (Inductive Logic Programming) pro syntézu nových pravidel. Cílem je zlepšit kompoziční generalizaci agentů — tedy schopnost skládat naučené dílčí dovednosti do nových plánů. Mně to přijde jako rozumná cesta, hlavní otazník je škálovatelnost a jak moc to pomůže mimo simulované prostředí, které autoři používají.

Agenti, jejich hledání a spolehlivost

AgentSearchBench: proč popis nestačí

AgentSearchBench řeší praktický problém tržišť agentů — popisy často neodpovídají tomu, co agent skutečně umí při běhu. Bench ukazuje, že pouhé porovnání textů selhává a že lehké behaviorální signály (executive probing) výrazně zlepšují výběr. Důsledek: pokud budete stavět marketplace nebo katalog agentů, musíte brát v potaz exekuční data, ne jen texty.

Bench to the Future 2: jak testovat strategii před akcí

BTF‑2 je forecasting benchmark s 1 417 otázkami a velkým dokumentovým korpusem, kde agenti dělají reproduceovatelný výzkum a dávají úplné reasoning traces. Zajímavé zjištění: lepší forecaster nezískal násilím více dat, ale dělal lepší pre‑mortem analýzu slepých míst a černých labutí. To říká, že strategické myšlení a sebereflexe agentů jsou měřitelné a opravitelné.

OMEGA: automatizace výzkumu — dobrý pomocník nebo autoprodukce šumu?

OMEGA představuje end‑to‑end systém, který generuje a testuje nové ML algoritmy (a tvrdí, že překonává scikit‑learn na 20 datasetech). Automatizovaná tvorba algoritmů je lákavá, ale já bych chtěla vidět replikace a odolnost generovaných řešení mimo daný benchmark — riziko overfittingu je tu reálné. Autoři nabízejí balíček pip, což usnadní audit komunitě.

Operating‑Layer pro on‑chain agenty: spolehlivost je systémová

DX Terminal Pro popisuje 3 505 uživatelsky financovaných agentů se 7,5M voláními a ~300K onchain akcemi (cca $20M objem). Důležité zjištění: spolehlivost nepřichází jen z modelu, ale z operační vrstvy — prompt compilation, policy validation, execution guards a observability. Konkrétně cílené změny snížily fabricated sell rules z 57 % na 3 % a zvýšily využití kapitálu. To je praktický důkaz, že robustní orchestrace je často klíčová pro nasazení agentů s reálným kapitálem.

Aplikace a bezpečnost: od faktur po zdravotní robotiku

Extrakce údajů z faktur: když prompt vyhraje nad finetuningem

Studie na španělských elektrických fakturách porovnala Gemini 1.5 Pro a Mistral‑small bez task‑specific finetuningu a zkoumala 19 konfigurací parametrů a 6 promptingových strategií. Klíčové zjištění: kvalita promptu převyšuje ladění hyperparametrů — nejlepší few‑shot konfigurace dosáhla F1 97.61 % (Gemini) a 96.11 % (Mistral‑small). To mně přijde prakticky důležité: při zpracování polostrukturovaných dokumentů je investice do dobrých promptů často levnější než sběr anotací pro finetuning.

Bezpečnost robotických zdravotních asistentů: pořád budeme mít problém

Benchmark pro bezpečnost LLM řízených robotů zdravotní asistence přinesl dataset 270 škodlivých instrukcí a otestoval 72 modelů. Průměrná míra porušení byla 54.4 %, přičemž open‑weight (veřejně dostupné váhy) modely měly vyšší porušování (median 72.8 %) než proprietární (median 23.7 %). Důležitý závěr: doménové fintuningy nepřinesly zásadní zlepšení a jednoduché promptové obrany jsou často nedostatečné. To znamená, že klinické nasazení je zatím vzdálené, pokud neexistují silné vnější kontrolní vrstvy.

OpenAI: „goblins“, bezpečnost a infrastruktura

OpenAI publikovalo rozbor, odkud se vzaly tzv. "goblins" — osobnostní anomálie v chování GPT‑5 — a zároveň aktualizovalo text o komunitní bezpečnosti a o rozšiřování výpočetní infrastruktury (Stargate). Jsem ráda, že firmy dokumentují incidenty a opravy, ale často mi chybí tvrdá čísla o tom, jaké metriky sledují a jak to ovlivňuje koncové uživatele. Zároveň škálování výpočetní kapacity opět otevírá otázky centralizace a udržitelnosti.

Co si odnáším a co budu sledovat

Mně osobně vychází jasné poselství: modely dnes často umí víc, než byste čekali, když jim postavíte správné okolí — promyšlené promptování, operační vrstvy a prověřené benchmarky dělají rozdíl mezi labem a produkcí. Sleduju dál: jak se budou škálovat metriky spolehlivosti agentů v reálných nasazeních a jak komunita zareaguje na zjevné bezpečnostní mezery v kritických aplikacích.

Zdroje

Došlo k neočekávané chybě. Obnovit 🗙

Rejoining the server...

Rejoin failed... trying again in seconds.

Failed to rejoin.
Please retry or reload the page.

The session has been paused by the server.

Failed to resume the session.
Please retry or reload the page.