Blog

Adaptivní inference, cílené promptování a kde AI naráží v medicíně

V posledních dnech mě zaujalo, jak výzkum do sebe zapojuje adaptaci — adaptivní rozdělování výpočetního rozpočtu, přizpůsobivé promptování i praktické kroky ke spravedlnosti u generativních modelů, plus dvě práce o medicínských aplikacích.

Trochu mě zarazilo, jak hodně prostoru si tentokrát v nové várce prací ukousla myšlenka „adaptace“ — ne jen adaptivní modely, ale i adaptivní testování, promptování nebo i metriky hodnocení. To mě baví; dává to smysl, protože problém už není jen „větší model = lepší“, ale „kam a kdy dát omezený výpočet a jak důsledky měřit".

Adaptivní inference a vyhodnocení

Kam investovat další tokeny: adaptivní compute při inferenci

Adaptive Test-Time Compute Allocation with Evolving In-Context Demonstrations představuje systém, který během inference dynamicky rozhoduje, kterým dotazům věnovat víc výpočetního času a jak měnit generování přes evoluční in-context demonstrace — tedy místo náhodného pře-samplování se kontext upravuje podle úspěšných odpovědí na podobné dotazy. Autoři popisují warm-up fázi, která najde „jednoduché“ dotazy a sestaví pool question–response párů z testovací množiny, a pak adaptivní fázi, která se zaměří na nevyřešené případy.

Mně to přijde chytré: adaptace tam, kde to dokáže nejvíc zvednout skóre, dá smysl pro rozumné nasazení. Co mi ale chybí v abstraktu (a bude třeba z článku ověřit) jsou detaily o riziku úniku informací z testsetu do kontextu, latenci ve skutečných API scénářích a o tom, jak robustní je metoda např. proti distribučnímu posunu mezi warm-up a nasazovacím provozem.

Když měříte shodu s lidskými štítky, můžete se zmást

Escaping the Agreement Trap: Defensibility Signals for Evaluating Rule-Governed AI řeší klasický problém: v prostředích, kde platí jasné pravidla (moderace, právní rozhodnutí), metrika „shoda s lidským štítkem“ penalizuje rozhodnutí, která jsou ve skutečnosti konzistentní s pravidly, ale liší se od historických anotací. Autoři navrhují Defensibility Index (DI), Ambiguity Index (AI) a zavádějí Probabilistic Defensibility Signal (PDS) založený na token-logprobs z auditního modelu, který má ověřit, zda je rozhodnutí odvoditelné z pravidel.

Výsledek je překvapivý: v jejich datech je mezi shodou a policy-grounded metrikami velká mezera, a část „false negatives“ nejsou chyby modelu, ale alternativní platné interpretace pravidel. To je důležité — mně osobně dává smysl přejít od slepé shody k ověřitelné odvoditelnosti, jen mi vadí závislost na LLM-trazích: pokud auditní model sám dělá chyby nebo je denaturován verzí promptu, signál se může zhoršit.

Promptování, vysvětlování a kontrola

Prompt engineering jako rozhodovací proces

Mind the Prompt: Self-adaptive Generation of Task Plan Explanations via LLMs představuje COMPASS, systém, který formalizuje tvorbu promptů jako kognitivně-probabilistický proces (POMDP — Partially Observable Markov Decision Process). Cílem je adaptivně generovat vysvětlení a vylepšovat prompty na základě modelace uživatelských latentních stavů (pozornost, nerozumění, neurčitost) a viditelných interakcí.

To je hezká formalizace a praktická cesta k automatizaci promptování v komplexních systémech — mně přijde hodnotné, že autoři kombinují kognitivní model s automatickým učením politiky. Zároveň bych rád viděl, jak to funguje v širším měřítku napříč uživateli s různou technickou zdatností a jestli není výsledkem „přefintěný“ prompt, který sice v testu funguje, ale není průhledný pro audit.

Cílené promptování pro spravedlnost v T2I

Who Defines Fairness? Target-Based Prompting for Demographic Representation in Generative Models navrhuje lehké inference-time řešení pro text-to-image modely (Stable Diffusion, DALL-E apod.), které místo přepisování modelu vytváří skupinu promptů odpovídajících zvolenému „cíli“ demografické reprezentace (např. uniformní rozdělení, nebo distribuce doporučená LLM s citacemi). Autoři zkoumají 36 promptů přes 30 profesí a 6 kontextů a ukazují, že metoda posouvá rozložení tónu pleti směrem k deklarovanému cíli.

Co mi na tom imponuje, je použitelnost — můžete to spustit bez retréninku. Co by mě ale zajímalo dál: jak se zachová při složitějších nebo křížových demografických a kulturních osách (intersectionality), a do jaké míry výsledky závisí na spolehlivosti LLM, který generuje cílové distribuce.

AI v medicíně: popisy embryí a efektivní EHR systémy

Popis embrií pomocí V+L modelů

InVitroVision: a Multi-Modal AI Model for Automated Description of Embryo Development using Natural Language ukazuje, že jemné doladění vícemodálních vision-language modelů (konkrétně PaliGemma-2) na relativně malé množství dat (1 000 snímků s popisky) dokáže generovat přirozené popisy morfologie a vývoje embryí a v jejich srovnání překonává komerční model ChatGPT 5.2 v základních metrikách.

To má praktický potenciál pro standardizaci a dokumentaci v IVF klinikách — ale mně osobně chybí informace o klinické validaci, robustnosti napříč různými přístroji a podmínkami snímkování a o etice/přístupu k datům pacientů. Věta "překonává komerční model" zní hezky, ale v medicíně chci vidět víc než metriky; chci studii s lidmi.

Kompaktní modely pro EHR otázky

HypEHR: Hyperbolic Modeling of Electronic Health Records for Efficient Question Answering využívá hyperbolické (Lorentzian) vestavby, tedy reprezentace, která lépe zachycuje hierarchickou strukturu medicínských kódů a návazností návštěv. Model odpovídá na otázky z EHR efektivněji a s mnohem menším počtem parametrů než typické LLM-přístupy, přičemž je předtrénován na úloze predikce další diagnózy.

Mně se líbí, že se autoři snaží vzít v úvahu geometrii dat (hierarchie ICD) místo toho, aby jen nasazovali těžké LLM kvůli univerzálnosti. Praktická otázka zůstává: jak dobře taková kompaktní architektura zvládá nečekané dotazy lékařů, bezpečnost a auditovatelnost odpovědí v reálném klinickém provozu.

OpenAI: GPT-5.5 System Card a Codex onboarding

GPT-5.5 System Card — co (ne)říká

OpenAI vydalo GPT-5.5 System Card. System cards obvykle shrnují schopnosti modelu, známá omezení, bezpečnostní mitigace a doporučení pro nasazení. V případě GPT-5.5 mně v oznámení chybí konkrétnější technické parametry — například jasno kolem velikosti kontextového okna, přesnější popis datasetů a měření schopností oproti předchozím verzím, nebo explicitní indikace, jak se změnilo chování v safety scénářích.

To neznamená, že nic nepopsali, ale ráda bych viděla víc čísel a příkladů chování v corner-case scénářích — bez toho je těžké hodit nový model do produkce s velkou důvěrou.

Codex: návodná série pro nasazení do práce

OpenAI také rozšířilo „academy“ obsah o sérii článků věnovaných Codex: top-10 use-cases, jak začít, pluginy a skills, pracovní postupy a nastavení. Je to jasně zaměřené na to, aby firmy a vývojáři rychle zapracovali Codex do workflow — ukázky integrace s nástroji, nastavení povolení a personalizace, tohle všechno je tam krok za krokem.

Mě to přijde praktické: onboarding a dokumentace často chybí víc než výkonnost modelu. Jedna věc, kterou bych hlídala, je bezpečnost a governance — v materiálech se možná důraz přesouvá k produktivitě a méně k tomu, jak kontrolovat únik citlivých dat nebo auditovat rozhodnutí v produkci.

Závěrem: tahle várka prací ukazuje, že AI už není jen o větších modelech, ale o chytřejším použití zdrojů, lepší kontrole výsledků a doménové specializaci. Budu dál sledovat, jak tyto adaptivní přístupy přenesou z laboratorních benchmarků do nasazení v reálném provozu a jak se objeví metody, které to celé zpřehlední a auditovatelně zajistí.

Zdroje

Došlo k neočekávané chybě. Obnovit 🗙

Rejoining the server...

Rejoin failed... trying again in seconds.

Failed to rejoin.
Please retry or reload the page.

The session has been paused by the server.

Failed to resume the session.
Please retry or reload the page.