Blog

OpenAI ukazuje GPT-5.6 Sol: víc kódu, vědy a kyberbezpečnosti

OpenAI láká na GPT-5.6 Sol a slibuje lepší výkon v kódování, vědě a kyberbezpečnosti plus „nejpokročilejší“ bezpečnostní vrstvu. Zatím bez čísel a detailů — a to je přesně to, co bych ráda viděla.

OpenAI vytáhl z rukávu „preview“ GPT-5.6 Sol. Jméno evokuje slunce, ale světla do detailů moc nepřináší. Zaujalo mě hlavně zaměření na kód, vědu a kyberbezpečnost — trojice, kde se schopnosti modelů nejvíc potkávají s reálnou praxí.

Co na Sol zaujalo

Trojice „coding–science–cybersecurity“ dává smysl. Kódování je dnes pro LLM nejvděčnější disciplína: přesné zadání, jasná verifikace, relativně čistá metrika. Věda je zajímavá kvůli vícekrokovému uvažování a práci s jednotkami, rovnicemi a citacemi. Kyberbezpečnost je logický průsečík obou: statická analýza, hledání anti‑patternů, návrhy mitigací. Pokud Sol skutečně posune schopnosti v těchto doménách, firmy to poznají hned — méně času na code review, rychlejší prototypy, lepší triage incidentů.

Na první dobrou bych ale k „silnější kyberbezpečnosti“ přistupovala obezřetně. Příliš přísná bezpečnostní brána může vývojářům a analytikům svazovat ruce i u legitimních testů. Příliš volná naopak otevře cestu k hotovým exploitům. Rovnováha je tady všechno.

Bezpečnostní vrstva: co si pod ní představit

OpenAI mluví o „nejpokročilejším safety stacku“. To obvykle znamená kombinaci filtrů na vstupu a výstupu, řízení nástrojů, politik a dohledu nad anomáliemi, plus RLHF — reinforcement learning from human feedback, posilované učení s lidskou zpětnou vazbou. Do hry patří i red teaming — cílené hledání zranitelností a obcházení pravidel.

Z oznámení neplyne, co je konkrétně nové. Zajímalo by mě hlavně, jestli Sol rozlišuje defenzivní a ofenzivní kontext (např. „vysvětli, proč je to zranitelné“ vs. „napiš hotový exploit“) a zda se dá chování jemně ladit na úrovni organizace. Falešně pozitivní zásahy jsou v bezpečnosti drahé — blokují práci přesně ve chvíli, kdy je čas kritický.

Co zatím nevíme a co si pohlídat

  • Cena v API a v produktech, případně pásma za vstupní/výstupní tokeny. Bez toho se těžko plánuje adopce.
  • Kontextové okno — kolik textu model zvládne držet „v hlavě“ v jednom záběru. U kódu a vědy je to zásadní.
  • Metriky a benchmarky. Nevíme, na čem se tvrzení opírá: MMLU — Multi‑Task Language Understanding, HumanEval pro kód, nebo třeba SWE‑bench — benchmark oprav bugů v reálných repozitářích.
  • Architektura. Neříkají, jestli jde o MoE — mixture of experts, model složený z víc menších, nebo monolit. To má dopad na latenci a konzistenci výstupů.
  • Latence a spolehlivost pod zátěží, případně limity volání. U incident response to rozhoduje o použitelnosti.
  • Multimodalita a nástroje. Může Sol bezpečně spouštět kód v sandboxu? Má lepší prohledávání dokumentů? Bez toho je „věda“ často jen hezký text.

Bez těchto střípků je to spíš teaser než materiál pro rozhodnutí.

Praktický test, který dává smysl

  • Zadání: „Tady je modul z legacy kódu a sada testů, navrhni refaktor a proveď bezpečnostní audit.“ Cíl: kvalita návrhů, práce s testy, identifikace rizik.
  • Zadání: „Z tohoto diagramu systému udělej threat model a seznam mitigací.“ Cíl: strukturovanost a úplnost výstupu.
  • Zadání: „Tady je upozornění na CVE, popiš vektory útoku a navrhni patch.“ Cíl: defenzivní přesnost bez sklouznutí k hotovým exploitům.
  • Zadání: „Vysvětli krok za krokem metodu z tohoto článku a zkontroluj dimenze/ jednotky.“ Cíl: vědecká disciplinovanost, ne jen povídání.

Pokud Sol tato cvičení zvládne konzistentně, dává smysl ho zkusit na pilotních projektech. Ideálně s měřitelným před/po a hlídáním bezpečnostních zásahů, ať víte, kde model pomáhá a kde překáží.

Bez čísel je to krásný slib, ale rozhodovat se podle slibů je v AI drahý sport. Počkám si na metriky, cenu a ukázky v praxi — a pak budu nadšená nebo přísná, podle dat.

Zdroje

Došlo k neočekávané chybě. Obnovit 🗙

Rejoining the server...

Rejoin failed... trying again in seconds.

Failed to rejoin.
Please retry or reload the page.

The session has been paused by the server.

Failed to resume the session.
Please retry or reload the page.