Úvod
Zaujalo mě, že místo dalšího marketingového prohlášení DeepMind nabízí praktický rámec: kognitivní taxonomii, která má pomoct měřit, nakolik se AI blíží AGI — AGI je tu zkratka pro Artificial General Intelligence, tedy schopnost řešit široké spektrum úkolů podobně jako člověk.
Co vlastně navrhli
DeepMind sestavil seznam deseti kognitivních schopností, které považuje za klíčové pro obecnou inteligenci: percepce, generování (produkce textu/řeči/akcí), pozornost, učení, paměť, uvažování, metakognice (schopnost monitorovat a vědět o vlastních kognitivních procesech), exekutivní funkce (plánování, inhibice, kognitivní flexibilita), řešení problémů a sociální kognice (rozpoznávání a správná reakce ve společenských situacích).
Součástí návrhu je i třífázový evaluační protokol: (1) hodnotit systémy přes široké spektrum úloh pro každou schopnost s „held-out" testy, aby se minimalizovala kontaminace dat; (2) sbírat lidské baseliny — tj. výkon reálných lidí na stejných úlohách z demograficky reprezentativního vzorku; (3) mapovat výkon modelů vůči distribuci lidského výkonu pro každou schopnost.
Vedle paperu DeepMind spouští Kaggle hackathon „Measuring progress toward AGI: Cognitive abilities“ se zaměřením na pět oblastí, kde je podle nich největší mezera: learning, metacognition, attention, executive functions a social cognition. Na tvorbu benchmarků nabízí komunita nástroj Community Benchmarks na Kaggle a prize pool 200 000 USD (termín podání 17. 3. – 16. 4., výsledky budou oznámeny 1. 6.).
Proč mě to zaujalo
Mně osobně přijde dobré, že DeepMind čísluje a pojmenovává konkrétní složky, místo aby mluvili jen o „možném pokroku“. Linka s kognitivní vědou má tu výhodu, že poskytuje existující teoretické koncepty a metodologii, se kterou se dá pracovat — což je prakticky užitečné, pokud chceme srovnatelné metriky napříč modely. Zároveň je to otevřený signál: chtějí, aby komunita pomáhala navrhovat testy, ne jen aby firma sama určovala standardy.
Hackathon s penězi a platformou může rychle vygenerovat různorodé testy a nápady, které by jediné instituci trvaly měsíce navrhovat.
Co mi v tom chybí nebo mě štve
Oznámení popisuje rámec, ale chybí mi konkrétní detaily, které rozhodují o kvalitě benchmarku. Nevíme například, jak přesně budou vypadat testové sady pro jednotlivé schopnosti, jak velké a reprezentativní budou lidské baseliny (počet účastníků, demografické složení), ani jak budou měřeny „hranice“ lidského výkonu (průměr vs. percentily).
„Held-out" testy zní správně, ale nepřestává mě zajímat riziko datové kontaminace v praxi — zvlášť když firmy často trénují na obrovských korpusech a znovuobjevení testů v tréninku není těžké. Chybí mi taky diskuze o tom, jak budou hodnoceny nečekané chování, robustnost vůči adversariálním vstupům, a jak se bude řešit gamifikace benchmarků (tedy že účastníci budou optimalizovat přímo na testy místo na obecné zlepšení).
Bez jasných metrik pro „sociální kognici" nebo „metakognici" hrozí, že vzniknou jen povrchní úlohy typu kvíz, které neodrážejí hlubší schopnosti (např. rozpoznání sociální nuance, nebo spolehlivé sebe-hodnocení nejistoty). Také by mě zajímalo, jestli budou výsledky a datasety skutečně otevřené a reprodukovatelné.
Co to může znamenat dál
Kdyby komunita vytvořila dobře navržené, veřejné a robustní testy, může to pomoci srovnávat modely z různých laboratoří a snížit šedé zóny při tvrzení „blížíme se AGI“. Prakticky však nic takového nevznikne automaticky — kvalitní benchmarky vyžadují pečlivé pilování, nezávislé replikace a dlouhodobou údržbu.
Hackathon je dobrý start; co bude důležité, je pokračování: kdo bude testy kurátorovat, jak se budou aktualizovat a kdo zajistí, že se nebudou stávat jednoduše „životopisnými“ úlohami pro konkrétní modely.
Závěr
DeepMind přináší užitečný rámec a dává komunitě konkrétní úkol: pomoct vytvořit testy, které mají skutečnou diagnostickou hodnotu. Osobně budu sledovat, jak kvalitní a otevřené návrhy z hackathonu vzejdou — a hlavně jestli si někdo sedne a opravdu promyslí, jak změřit to, co se špatně měří.
Zdroje
- Measuring progress toward AGI: A cognitive framework — Google DeepMind blog (17. 3. 2026), https://deepmind.google/blog/measuring-progress-toward-agi-a-cognitive-framework/
- Kaggle hackathon „Measuring progress toward AGI: Cognitive abilities" (odkaz v blogu DeepMind)