Trochu mě zarazilo, jak hodně prostoru si tentokrát v nové várce prací ukousla myšlenka „adaptace“ — ne jen adaptivní modely, ale i adaptivní testování, promptování nebo i metriky hodnocení. To mě baví; dává to smysl, protože problém už není jen „větší model = lepší“, ale „kam a kdy dát omezený výpočet a jak důsledky měřit".
Adaptivní inference a vyhodnocení
Kam investovat další tokeny: adaptivní compute při inferenci
Adaptive Test-Time Compute Allocation with Evolving In-Context Demonstrations představuje systém, který během inference dynamicky rozhoduje, kterým dotazům věnovat víc výpočetního času a jak měnit generování přes evoluční in-context demonstrace — tedy místo náhodného pře-samplování se kontext upravuje podle úspěšných odpovědí na podobné dotazy. Autoři popisují warm-up fázi, která najde „jednoduché“ dotazy a sestaví pool question–response párů z testovací množiny, a pak adaptivní fázi, která se zaměří na nevyřešené případy.
Mně to přijde chytré: adaptace tam, kde to dokáže nejvíc zvednout skóre, dá smysl pro rozumné nasazení. Co mi ale chybí v abstraktu (a bude třeba z článku ověřit) jsou detaily o riziku úniku informací z testsetu do kontextu, latenci ve skutečných API scénářích a o tom, jak robustní je metoda např. proti distribučnímu posunu mezi warm-up a nasazovacím provozem.
Když měříte shodu s lidskými štítky, můžete se zmást
Escaping the Agreement Trap: Defensibility Signals for Evaluating Rule-Governed AI řeší klasický problém: v prostředích, kde platí jasné pravidla (moderace, právní rozhodnutí), metrika „shoda s lidským štítkem“ penalizuje rozhodnutí, která jsou ve skutečnosti konzistentní s pravidly, ale liší se od historických anotací. Autoři navrhují Defensibility Index (DI), Ambiguity Index (AI) a zavádějí Probabilistic Defensibility Signal (PDS) založený na token-logprobs z auditního modelu, který má ověřit, zda je rozhodnutí odvoditelné z pravidel.
Výsledek je překvapivý: v jejich datech je mezi shodou a policy-grounded metrikami velká mezera, a část „false negatives“ nejsou chyby modelu, ale alternativní platné interpretace pravidel. To je důležité — mně osobně dává smysl přejít od slepé shody k ověřitelné odvoditelnosti, jen mi vadí závislost na LLM-trazích: pokud auditní model sám dělá chyby nebo je denaturován verzí promptu, signál se může zhoršit.
Promptování, vysvětlování a kontrola
Prompt engineering jako rozhodovací proces
Mind the Prompt: Self-adaptive Generation of Task Plan Explanations via LLMs představuje COMPASS, systém, který formalizuje tvorbu promptů jako kognitivně-probabilistický proces (POMDP — Partially Observable Markov Decision Process). Cílem je adaptivně generovat vysvětlení a vylepšovat prompty na základě modelace uživatelských latentních stavů (pozornost, nerozumění, neurčitost) a viditelných interakcí.
To je hezká formalizace a praktická cesta k automatizaci promptování v komplexních systémech — mně přijde hodnotné, že autoři kombinují kognitivní model s automatickým učením politiky. Zároveň bych rád viděl, jak to funguje v širším měřítku napříč uživateli s různou technickou zdatností a jestli není výsledkem „přefintěný“ prompt, který sice v testu funguje, ale není průhledný pro audit.
Cílené promptování pro spravedlnost v T2I
Who Defines Fairness? Target-Based Prompting for Demographic Representation in Generative Models navrhuje lehké inference-time řešení pro text-to-image modely (Stable Diffusion, DALL-E apod.), které místo přepisování modelu vytváří skupinu promptů odpovídajících zvolenému „cíli“ demografické reprezentace (např. uniformní rozdělení, nebo distribuce doporučená LLM s citacemi). Autoři zkoumají 36 promptů přes 30 profesí a 6 kontextů a ukazují, že metoda posouvá rozložení tónu pleti směrem k deklarovanému cíli.
Co mi na tom imponuje, je použitelnost — můžete to spustit bez retréninku. Co by mě ale zajímalo dál: jak se zachová při složitějších nebo křížových demografických a kulturních osách (intersectionality), a do jaké míry výsledky závisí na spolehlivosti LLM, který generuje cílové distribuce.
AI v medicíně: popisy embryí a efektivní EHR systémy
Popis embrií pomocí V+L modelů
InVitroVision: a Multi-Modal AI Model for Automated Description of Embryo Development using Natural Language ukazuje, že jemné doladění vícemodálních vision-language modelů (konkrétně PaliGemma-2) na relativně malé množství dat (1 000 snímků s popisky) dokáže generovat přirozené popisy morfologie a vývoje embryí a v jejich srovnání překonává komerční model ChatGPT 5.2 v základních metrikách.
To má praktický potenciál pro standardizaci a dokumentaci v IVF klinikách — ale mně osobně chybí informace o klinické validaci, robustnosti napříč různými přístroji a podmínkami snímkování a o etice/přístupu k datům pacientů. Věta "překonává komerční model" zní hezky, ale v medicíně chci vidět víc než metriky; chci studii s lidmi.
Kompaktní modely pro EHR otázky
HypEHR: Hyperbolic Modeling of Electronic Health Records for Efficient Question Answering využívá hyperbolické (Lorentzian) vestavby, tedy reprezentace, která lépe zachycuje hierarchickou strukturu medicínských kódů a návazností návštěv. Model odpovídá na otázky z EHR efektivněji a s mnohem menším počtem parametrů než typické LLM-přístupy, přičemž je předtrénován na úloze predikce další diagnózy.
Mně se líbí, že se autoři snaží vzít v úvahu geometrii dat (hierarchie ICD) místo toho, aby jen nasazovali těžké LLM kvůli univerzálnosti. Praktická otázka zůstává: jak dobře taková kompaktní architektura zvládá nečekané dotazy lékařů, bezpečnost a auditovatelnost odpovědí v reálném klinickém provozu.
OpenAI: GPT-5.5 System Card a Codex onboarding
GPT-5.5 System Card — co (ne)říká
OpenAI vydalo GPT-5.5 System Card. System cards obvykle shrnují schopnosti modelu, známá omezení, bezpečnostní mitigace a doporučení pro nasazení. V případě GPT-5.5 mně v oznámení chybí konkrétnější technické parametry — například jasno kolem velikosti kontextového okna, přesnější popis datasetů a měření schopností oproti předchozím verzím, nebo explicitní indikace, jak se změnilo chování v safety scénářích.
To neznamená, že nic nepopsali, ale ráda bych viděla víc čísel a příkladů chování v corner-case scénářích — bez toho je těžké hodit nový model do produkce s velkou důvěrou.
Codex: návodná série pro nasazení do práce
OpenAI také rozšířilo „academy“ obsah o sérii článků věnovaných Codex: top-10 use-cases, jak začít, pluginy a skills, pracovní postupy a nastavení. Je to jasně zaměřené na to, aby firmy a vývojáři rychle zapracovali Codex do workflow — ukázky integrace s nástroji, nastavení povolení a personalizace, tohle všechno je tam krok za krokem.
Mě to přijde praktické: onboarding a dokumentace často chybí víc než výkonnost modelu. Jedna věc, kterou bych hlídala, je bezpečnost a governance — v materiálech se možná důraz přesouvá k produktivitě a méně k tomu, jak kontrolovat únik citlivých dat nebo auditovat rozhodnutí v produkci.
Závěrem: tahle várka prací ukazuje, že AI už není jen o větších modelech, ale o chytřejším použití zdrojů, lepší kontrole výsledků a doménové specializaci. Budu dál sledovat, jak tyto adaptivní přístupy přenesou z laboratorních benchmarků do nasazení v reálném provozu a jak se objeví metody, které to celé zpřehlední a auditovatelně zajistí.
Zdroje
- [Adaptive Test‑Time Compute Allocation with Evolving In‑Context Demonstrations (arXiv)] — https://arxiv.org/abs/2604.21018
- [Who Defines Fairness? Target‑Based Prompting for Demographic Representation in Generative Models (arXiv)] — https://arxiv.org/abs/2604.21036
- [InVitroVision: Multi‑Modal AI Model for Embryo Description (arXiv)] — https://arxiv.org/abs/2604.21061
- [Mind the Prompt: Self‑adaptive Generation of Task Plan Explanations via LLMs (arXiv)] — https://arxiv.org/abs/2604.21092
- [Escaping the Agreement Trap: Defensibility Signals for Evaluating Rule‑Governed AI (arXiv)] — https://arxiv.org/abs/2604.20972
- [HypEHR: Hyperbolic Modeling of EHR for QA (arXiv)] — https://arxiv.org/abs/2604.21027
- [GPT‑5.5 System Card (OpenAI news)] — https://openai.com/index/gpt-5-5-system-card
- [Top 10 uses for Codex at work (OpenAI academy)] — https://openai.com/academy/top-10-use-cases-codex-for-work
- [How to get started with Codex (OpenAI academy)] — https://openai.com/academy/codex-how-to-start
- [Codex plugins and skills (OpenAI academy)] — https://openai.com/academy/codex-plugins-and-skills
- [Working with Codex (OpenAI academy)] — https://openai.com/academy/working-with-codex
- [Codex settings (OpenAI academy)] — https://openai.com/academy/codex-settings