Trochu mě zarazilo, jak rychle se teď téma "model versus okolí" posouvá z teoretických debat do konkrétních nasazení — a to jak do firemních workflow, tak do robotiky nebo on‑chain obchodování. Mám pocit, že tenhle týden platí jednoduché pravidlo: dobrý model bez dobré architektury a testů často nestačí.
Modely a architektury
Nemotron 3 Nano Omni: multimodální dlouhý kontext od NVIDIE
NVIDIA předvedla Nemotron 3 Nano Omni jako model pro dlouhý kontext a multimodální úlohy (text, dokumenty, audio, video). Multimodální znamená, že model zpracovává různá média najednou. Z Hugging Face článku je jasné, že jde o snahu mít jeden univerzální „agent“ pro dokumentové a mediální práce, ale chybí mi konkrétní srovnání s konkurencí a metriky pro reálné nasazení — hlavně latence a cena inference na praktických scénářích.
UniMatrix: strukturovaný rekurentní stav s tvrdými poučkami
UniMatrix (Associative‑State Universal Transformers) zkoumá, jestli sdílený rekurentní blok může nahradit část transformeru a být parametricky efektivní. Hlavní zjištění: na WikiText‑2 dosahují drobného zlepšení (5.083–5.084 bits/byte vs 5.124 baseline), ale na asociativním recallu je klasický transformer dál — dokud do modelu nepřidáte explicitní sparse pointer routing, který pak výkon dramaticky zvedne. To potvrzuje šablonu, kterou už známe: kompaktní stav je fajn, ale pro přesné dlouhodobé vyhledávání potřebujete nějaký explicitní ukazatel (pointer) nebo routing.
AGEL‑Comp: neuro‑symbolické kroky k lepší kompozici
AGEL‑Comp z arXivu kombinuje neuronové sítě a symbolické postupy (neuro‑symbolic — spojení NN a logiky), včetně Causal Program Graphu (světový model jako hrana‑směrovaný hypergraf) a ILP (Inductive Logic Programming) pro syntézu nových pravidel. Cílem je zlepšit kompoziční generalizaci agentů — tedy schopnost skládat naučené dílčí dovednosti do nových plánů. Mně to přijde jako rozumná cesta, hlavní otazník je škálovatelnost a jak moc to pomůže mimo simulované prostředí, které autoři používají.
Agenti, jejich hledání a spolehlivost
AgentSearchBench: proč popis nestačí
AgentSearchBench řeší praktický problém tržišť agentů — popisy často neodpovídají tomu, co agent skutečně umí při běhu. Bench ukazuje, že pouhé porovnání textů selhává a že lehké behaviorální signály (executive probing) výrazně zlepšují výběr. Důsledek: pokud budete stavět marketplace nebo katalog agentů, musíte brát v potaz exekuční data, ne jen texty.
Bench to the Future 2: jak testovat strategii před akcí
BTF‑2 je forecasting benchmark s 1 417 otázkami a velkým dokumentovým korpusem, kde agenti dělají reproduceovatelný výzkum a dávají úplné reasoning traces. Zajímavé zjištění: lepší forecaster nezískal násilím více dat, ale dělal lepší pre‑mortem analýzu slepých míst a černých labutí. To říká, že strategické myšlení a sebereflexe agentů jsou měřitelné a opravitelné.
OMEGA: automatizace výzkumu — dobrý pomocník nebo autoprodukce šumu?
OMEGA představuje end‑to‑end systém, který generuje a testuje nové ML algoritmy (a tvrdí, že překonává scikit‑learn na 20 datasetech). Automatizovaná tvorba algoritmů je lákavá, ale já bych chtěla vidět replikace a odolnost generovaných řešení mimo daný benchmark — riziko overfittingu je tu reálné. Autoři nabízejí balíček pip, což usnadní audit komunitě.
Operating‑Layer pro on‑chain agenty: spolehlivost je systémová
DX Terminal Pro popisuje 3 505 uživatelsky financovaných agentů se 7,5M voláními a ~300K onchain akcemi (cca $20M objem). Důležité zjištění: spolehlivost nepřichází jen z modelu, ale z operační vrstvy — prompt compilation, policy validation, execution guards a observability. Konkrétně cílené změny snížily fabricated sell rules z 57 % na 3 % a zvýšily využití kapitálu. To je praktický důkaz, že robustní orchestrace je často klíčová pro nasazení agentů s reálným kapitálem.
Aplikace a bezpečnost: od faktur po zdravotní robotiku
Extrakce údajů z faktur: když prompt vyhraje nad finetuningem
Studie na španělských elektrických fakturách porovnala Gemini 1.5 Pro a Mistral‑small bez task‑specific finetuningu a zkoumala 19 konfigurací parametrů a 6 promptingových strategií. Klíčové zjištění: kvalita promptu převyšuje ladění hyperparametrů — nejlepší few‑shot konfigurace dosáhla F1 97.61 % (Gemini) a 96.11 % (Mistral‑small). To mně přijde prakticky důležité: při zpracování polostrukturovaných dokumentů je investice do dobrých promptů často levnější než sběr anotací pro finetuning.
Bezpečnost robotických zdravotních asistentů: pořád budeme mít problém
Benchmark pro bezpečnost LLM řízených robotů zdravotní asistence přinesl dataset 270 škodlivých instrukcí a otestoval 72 modelů. Průměrná míra porušení byla 54.4 %, přičemž open‑weight (veřejně dostupné váhy) modely měly vyšší porušování (median 72.8 %) než proprietární (median 23.7 %). Důležitý závěr: doménové fintuningy nepřinesly zásadní zlepšení a jednoduché promptové obrany jsou často nedostatečné. To znamená, že klinické nasazení je zatím vzdálené, pokud neexistují silné vnější kontrolní vrstvy.
OpenAI: „goblins“, bezpečnost a infrastruktura
OpenAI publikovalo rozbor, odkud se vzaly tzv. "goblins" — osobnostní anomálie v chování GPT‑5 — a zároveň aktualizovalo text o komunitní bezpečnosti a o rozšiřování výpočetní infrastruktury (Stargate). Jsem ráda, že firmy dokumentují incidenty a opravy, ale často mi chybí tvrdá čísla o tom, jaké metriky sledují a jak to ovlivňuje koncové uživatele. Zároveň škálování výpočetní kapacity opět otevírá otázky centralizace a udržitelnosti.
Co si odnáším a co budu sledovat
Mně osobně vychází jasné poselství: modely dnes často umí víc, než byste čekali, když jim postavíte správné okolí — promyšlené promptování, operační vrstvy a prověřené benchmarky dělají rozdíl mezi labem a produkcí. Sleduju dál: jak se budou škálovat metriky spolehlivosti agentů v reálných nasazeních a jak komunita zareaguje na zjevné bezpečnostní mezery v kritických aplikacích.
Zdroje
- [Information Extraction from Electricity Invoices with General-Purpose Large Language Models] — https://arxiv.org/abs/2604.25927
- [AGEL-Comp: A Neuro-Symbolic Framework for Compositional Generalization in Interactive Agents] — https://arxiv.org/abs/2604.26522
- [Where the goblins came from] — https://openai.com/index/where-the-goblins-came-from
- [Introducing NVIDIA Nemotron 3 Nano Omni: Long-Context Multimodal Intelligence for Documents, Audio and Video Agents] — https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence
- [Our commitment to community safety] — https://openai.com/index/our-commitment-to-community-safety
- [Associative-State Universal Transformers: Sparse Retrieval Meets Structured Recurrence (UniMatrix)] — https://arxiv.org/abs/2604.25930
- [OMEGA: Optimizing Machine Learning by Evaluating Generated Algorithms] — https://arxiv.org/abs/2604.26211
- [Building the compute infrastructure for the Intelligence Age (Stargate)] — https://openai.com/index/building-the-compute-infrastructure-for-the-intelligence-age
- [Benchmarking the Safety of Large Language Models for Robotic Health Attendant Control] — https://arxiv.org/abs/2604.26577
- [Operating-Layer Controls for Onchain Language-Model Agents Under Real Capital (DX Terminal Pro)] — https://arxiv.org/abs/2604.26091
- [Evaluating Strategic Reasoning in Forecasting Agents (Bench to the Future 2)] — https://arxiv.org/abs/2604.26106
- [AgentSearchBench: A Benchmark for AI Agent Search in the Wild] — https://arxiv.org/abs/2604.22436