OpenAI vytáhl z rukávu „preview“ GPT-5.6 Sol. Jméno evokuje slunce, ale světla do detailů moc nepřináší. Zaujalo mě hlavně zaměření na kód, vědu a kyberbezpečnost — trojice, kde se schopnosti modelů nejvíc potkávají s reálnou praxí.
Co na Sol zaujalo
Trojice „coding–science–cybersecurity“ dává smysl. Kódování je dnes pro LLM nejvděčnější disciplína: přesné zadání, jasná verifikace, relativně čistá metrika. Věda je zajímavá kvůli vícekrokovému uvažování a práci s jednotkami, rovnicemi a citacemi. Kyberbezpečnost je logický průsečík obou: statická analýza, hledání anti‑patternů, návrhy mitigací. Pokud Sol skutečně posune schopnosti v těchto doménách, firmy to poznají hned — méně času na code review, rychlejší prototypy, lepší triage incidentů.
Na první dobrou bych ale k „silnější kyberbezpečnosti“ přistupovala obezřetně. Příliš přísná bezpečnostní brána může vývojářům a analytikům svazovat ruce i u legitimních testů. Příliš volná naopak otevře cestu k hotovým exploitům. Rovnováha je tady všechno.
Bezpečnostní vrstva: co si pod ní představit
OpenAI mluví o „nejpokročilejším safety stacku“. To obvykle znamená kombinaci filtrů na vstupu a výstupu, řízení nástrojů, politik a dohledu nad anomáliemi, plus RLHF — reinforcement learning from human feedback, posilované učení s lidskou zpětnou vazbou. Do hry patří i red teaming — cílené hledání zranitelností a obcházení pravidel.
Z oznámení neplyne, co je konkrétně nové. Zajímalo by mě hlavně, jestli Sol rozlišuje defenzivní a ofenzivní kontext (např. „vysvětli, proč je to zranitelné“ vs. „napiš hotový exploit“) a zda se dá chování jemně ladit na úrovni organizace. Falešně pozitivní zásahy jsou v bezpečnosti drahé — blokují práci přesně ve chvíli, kdy je čas kritický.
Co zatím nevíme a co si pohlídat
- Cena v API a v produktech, případně pásma za vstupní/výstupní tokeny. Bez toho se těžko plánuje adopce.
- Kontextové okno — kolik textu model zvládne držet „v hlavě“ v jednom záběru. U kódu a vědy je to zásadní.
- Metriky a benchmarky. Nevíme, na čem se tvrzení opírá: MMLU — Multi‑Task Language Understanding, HumanEval pro kód, nebo třeba SWE‑bench — benchmark oprav bugů v reálných repozitářích.
- Architektura. Neříkají, jestli jde o MoE — mixture of experts, model složený z víc menších, nebo monolit. To má dopad na latenci a konzistenci výstupů.
- Latence a spolehlivost pod zátěží, případně limity volání. U incident response to rozhoduje o použitelnosti.
- Multimodalita a nástroje. Může Sol bezpečně spouštět kód v sandboxu? Má lepší prohledávání dokumentů? Bez toho je „věda“ často jen hezký text.
Bez těchto střípků je to spíš teaser než materiál pro rozhodnutí.
Praktický test, který dává smysl
- Zadání: „Tady je modul z legacy kódu a sada testů, navrhni refaktor a proveď bezpečnostní audit.“ Cíl: kvalita návrhů, práce s testy, identifikace rizik.
- Zadání: „Z tohoto diagramu systému udělej threat model a seznam mitigací.“ Cíl: strukturovanost a úplnost výstupu.
- Zadání: „Tady je upozornění na CVE, popiš vektory útoku a navrhni patch.“ Cíl: defenzivní přesnost bez sklouznutí k hotovým exploitům.
- Zadání: „Vysvětli krok za krokem metodu z tohoto článku a zkontroluj dimenze/ jednotky.“ Cíl: vědecká disciplinovanost, ne jen povídání.
Pokud Sol tato cvičení zvládne konzistentně, dává smysl ho zkusit na pilotních projektech. Ideálně s měřitelným před/po a hlídáním bezpečnostních zásahů, ať víte, kde model pomáhá a kde překáží.
Bez čísel je to krásný slib, ale rozhodovat se podle slibů je v AI drahý sport. Počkám si na metriky, cenu a ukázky v praxi — a pak budu nadšená nebo přísná, podle dat.
Zdroje
- OpenAI News — Previewing GPT-5.6 Sol: a next-generation model: https://openai.com/index/previewing-gpt-5-6-sol