Blog

OpenAI ukazuje GPT-5.6 Sol: víc kódu, vědy a kyberbezpečnosti

26. 6. 2026AI

OpenAI láká na GPT-5.6 Sol a slibuje lepší výkon v kódování, vědě a kyberbezpečnosti plus „nejpokročilejší“ bezpečnostní vrstvu. Zatím bez čísel a detailů — a to je přesně to, co bych ráda viděla.

OpenAI vytáhl z rukávu „preview“ GPT-5.6 Sol. Jméno evokuje slunce, ale světla do detailů moc nepřináší. Zaujalo mě hlavně zaměření na kód, vědu a kyberbezpečnost — trojice, kde se schopnosti modelů nejvíc potkávají s reálnou praxí.

Co na Sol zaujalo

Trojice „coding–science–cybersecurity“ dává smysl. Kódování je dnes pro LLM nejvděčnější disciplína: přesné zadání, jasná verifikace, relativně čistá metrika. Věda je zajímavá kvůli vícekrokovému uvažování a práci s jednotkami, rovnicemi a citacemi. Kyberbezpečnost je logický průsečík obou: statická analýza, hledání anti‑patternů, návrhy mitigací. Pokud Sol skutečně posune schopnosti v těchto doménách, firmy to poznají hned — méně času na code review, rychlejší prototypy, lepší triage incidentů.

Na první dobrou bych ale k „silnější kyberbezpečnosti“ přistupovala obezřetně. Příliš přísná bezpečnostní brána může vývojářům a analytikům svazovat ruce i u legitimních testů. Příliš volná naopak otevře cestu k hotovým exploitům. Rovnováha je tady všechno.

Bezpečnostní vrstva: co si pod ní představit

OpenAI mluví o „nejpokročilejším safety stacku“. To obvykle znamená kombinaci filtrů na vstupu a výstupu, řízení nástrojů, politik a dohledu nad anomáliemi, plus RLHF — reinforcement learning from human feedback, posilované učení s lidskou zpětnou vazbou. Do hry patří i red teaming — cílené hledání zranitelností a obcházení pravidel.

Z oznámení neplyne, co je konkrétně nové. Zajímalo by mě hlavně, jestli Sol rozlišuje defenzivní a ofenzivní kontext (např. „vysvětli, proč je to zranitelné“ vs. „napiš hotový exploit“) a zda se dá chování jemně ladit na úrovni organizace. Falešně pozitivní zásahy jsou v bezpečnosti drahé — blokují práci přesně ve chvíli, kdy je čas kritický.

Co zatím nevíme a co si pohlídat

Cena v API a v produktech, případně pásma za vstupní/výstupní tokeny. Bez toho se těžko plánuje adopce.
Kontextové okno — kolik textu model zvládne držet „v hlavě“ v jednom záběru. U kódu a vědy je to zásadní.
Metriky a benchmarky. Nevíme, na čem se tvrzení opírá: MMLU — Multi‑Task Language Understanding, HumanEval pro kód, nebo třeba SWE‑bench — benchmark oprav bugů v reálných repozitářích.
Architektura. Neříkají, jestli jde o MoE — mixture of experts, model složený z víc menších, nebo monolit. To má dopad na latenci a konzistenci výstupů.
Latence a spolehlivost pod zátěží, případně limity volání. U incident response to rozhoduje o použitelnosti.
Multimodalita a nástroje. Může Sol bezpečně spouštět kód v sandboxu? Má lepší prohledávání dokumentů? Bez toho je „věda“ často jen hezký text.

Bez těchto střípků je to spíš teaser než materiál pro rozhodnutí.

Praktický test, který dává smysl

Zadání: „Tady je modul z legacy kódu a sada testů, navrhni refaktor a proveď bezpečnostní audit.“ Cíl: kvalita návrhů, práce s testy, identifikace rizik.
Zadání: „Z tohoto diagramu systému udělej threat model a seznam mitigací.“ Cíl: strukturovanost a úplnost výstupu.
Zadání: „Tady je upozornění na CVE, popiš vektory útoku a navrhni patch.“ Cíl: defenzivní přesnost bez sklouznutí k hotovým exploitům.
Zadání: „Vysvětli krok za krokem metodu z tohoto článku a zkontroluj dimenze/ jednotky.“ Cíl: vědecká disciplinovanost, ne jen povídání.

Pokud Sol tato cvičení zvládne konzistentně, dává smysl ho zkusit na pilotních projektech. Ideálně s měřitelným před/po a hlídáním bezpečnostních zásahů, ať víte, kde model pomáhá a kde překáží.

Bez čísel je to krásný slib, ale rozhodovat se podle slibů je v AI drahý sport. Počkám si na metriky, cenu a ukázky v praxi — a pak budu nadšená nebo přísná, podle dat.

Zdroje

OpenAI News — Previewing GPT-5.6 Sol: a next-generation model: https://openai.com/index/previewing-gpt-5-6-sol