OpenAI slapp GPT-5.2 i dag, og jeg har brukt formiddagen på å teste den. Tre versjoner, en haug med benchmarks, og løfter om at dette er den beste modellen de noensinne har laget.
Men stemmer det? Jeg kjørte de samme promptene på 5.1 og 5.2 for å se forskjellen selv.
De tre versjonene av GPT-5.2
Akkurat som 5.1 kommer 5.2 i tre varianter:
- Instant – Tenker ikke, bare svarer raskt
- Thinking – Bruker tid på å resonnere før den svarer
- Pro – Den kraftigste versjonen (kun for Pro- og Business-abonnement)
Min anbefaling er den samme som før: Bruk thinking-modellen til nesten alt. De ekstra sekundene er verdt det. Auto-modusen velger ofte feil – den ga meg et galt svar på to sekunder i stedet for riktig svar på to minutter.
Jeg venter heller to minutter og får riktig svar.
Benchmarks: GPT-5.2 dominerer på papiret
OpenAI har publisert en haug med benchmarks, og tallene er imponerende:
AMY 2025 (matematikk):
- GPT-5.2: 100% – Perfekt score
- Gemini 3 Pro: 95%
- Claude Opus 4.5: 92.8%
ARC-AGI 2 (generalisering):
- GPT-5.1: 17%
- GPT-5.2: 52.9%
Det er den store overraskelsen. ARC-AGI 2 tester modellens evne til å lære og generalisere – det nærmeste vi kommer en ekte test på generell intelligens. Et hopp fra 17% til 53% er massivt.
Effektivitetsforbedringen er vill: For ett år siden kostet det $4,500 per oppgave å score 88% på ARC-AGI. Nå scorer GPT-5.2 90.5% til $11 per oppgave. Det er 390 ganger mer effektivt.
Hallusinasjoner:
- GPT-5.1: 8.8% feilrate
- GPT-5.2: 6.2% feilrate
30% reduksjon i hallusinasjoner. Ikke enormt, men merkbart. Hver prosentpoeng teller når du skal stole på svarene.
Min test: Hva fungerer faktisk bedre?
Ocean Wave Simulation
Jeg ga begge modellene samme prompt: Lag en enkeltsides HTML-app med realistiske animerte bølger. Vindstyrke, bølgehøyde og belysning skal kunne justeres.
GPT-5.1: Laget noe som så ut som en tegnefilm. Teknisk sett gjorde den jobben, men det så ut som et spill fra 2005.
GPT-5.2: Resultatet så ut som en vitenskapelig simulering. Vannfysikken så realistisk ut. Kontrollene fungerte. Belysningen endret seg når jeg justerte tid på døgnet.
Klar forbedring.
Regneark og presentasjoner
Dette er kanskje der jeg merker størst forskjell. Jeg bruker ChatGPT til å lage workforce planning, budsjetter og presentasjoner hele tiden. Outputen fra 5.1 var alltid… funksjonell, men stygg. Mye manuelt arbeid for å få det brukbart.
GPT-5.2 lager regneark som faktisk ser profesjonelle ut. Formateringen er bedre. Layouten gir mening.
En presentasjon tok 28 minutter å generere (den hentet kilder og bygget slides), men resultatet var sjokkerende bra sammenlignet med hva 5.1 kunne levere. ChatGPT har aldri vært i stand til å lage noe så pent før.
Cap Table Management
Her blir det kritisk. Jeg testet en kompleks cap table med seed, Series A og Series B.
GPT-5.1: Beregnet feil på liquidation preferences. Lot flere rader stå tomme. Feil sluttberegning på equity payout.
GPT-5.2: Fikk alt riktig.
Dette er ikke en liten detalj. Feil i cap tables kan koste millioner. At modellen nå får dette riktig er en reell forbedring for alle som jobber med finans.
Ordtelling – Endelig!
Jeg har ventet på dette i årevis. AI-modeller har alltid vært elendige på å treffe eksakt ordtelling. Ber du om 300 ord, får du kanskje 247 eller 412.
Jeg ba GPT-5.2 thinking om å skrive en produktbeskrivelse på nøyaktig 300 ord.
Den leverte nøyaktig 300 ord.
Første gang noensinne at en modell har truffet eksakt. Den tenkte i nesten to minutter for å få det til, men den fikk det til.
Visual reasoning
Jeg bruker ChatGPT konstant til å analysere screenshots. «Hvor skal jeg klikke?» «Hva gjør denne knappen?»
Forbedringen her er målbar:
- Screenshot-forståelse: 64% → 86%
- Chart reasoning: 80% → 88%
I praksis betyr det at når jeg tar et screenshot av en app jeg ikke forstår, gir 5.2 meg mye mer presise svar om hvor ting er og hva de gjør.
Tool use
Dette er kanskje den mest imponerende forbedringen teknisk sett.
Jeg testet med et komplekst scenario: «Flyet mitt fra Paris til New York ble forsinket, jeg mistet tilkoblingen til Austin, bagasjen min er borte, jeg må overnatte i New York, og jeg trenger et spesielt sete av medisinske grunner.»
GPT-5.1: Noen få tool calls, ufullstendig løsning.
GPT-5.2: Lange kjeder av tool calls som faktisk løser hele problemet.
Benchmark-tallene bekrefter det: Fra 47% til 98.7% på telecom/kundeservice-oppgaver. Bokstavelig talt dobling.
Hva fungerer ikke?
Auto-modus velger fortsatt feil
Jeg hadde et visuelt puslespill – finn riktig toppvisning basert på fargene. Med auto-modus tenkte den i to sekunder og ga feil svar. Med thinking-modus tenkte den i to minutter og ga riktig svar.
Poenget: Ikke stol på at modellen velger riktig modus for deg. Velg thinking manuelt.
Komplekse web-apper er fortsatt hit-or-miss
Jeg testet en AI-verktøy-sammenligningsside med filtrering, dark mode og pop-ups. Visuelt så den mye bedre ut enn 5.1-versjonen. Men funksjonaliteten var delvis ødelagt – filtreringen fungerte ikke som den skulle.
5.2 skrev 1,800 linjer kode mot 5.1s 300 linjer. Mer kode er ikke alltid bedre kode.
Claude Opus 4.5 er fortsatt bedre på denne typen komplekse web-apper. LM Arena bekrefter det – Opus 4.5 er fortsatt #1 på koding, med GPT-5.2 på andreplass.
Hook-skriving er fortsatt middelmådig
Jeg ba den skrive hooks for en video uten mye kontekst, for å se hvor godt den husker skriverstilen min.
De fleste forslagene var ting jeg aldri ville sagt. Noen var brukbare, men dette er fortsatt et område der AI-modeller generelt sliter.
Prising: Dyrere, men verdt det?
Her er elefanten i rommet:
| GPT-5.1 | GPT-5.2 | |
|---|---|---|
| Input (per million tokens) | $1.25 | $1.75 |
| Output (per million tokens) | $10 | $14 |
40% dyrere på input, 40% dyrere på output. Ikke ubetydelig.
Men hvis du bruker modellen til økonomisk verdifullt arbeid – cap tables, finansielle modeller, komplekse presentasjoner – er forbedringene verdt prisen.
Long context: Endelig fungerer det
Kontekstvinduet er fortsatt 256K tokens, samme som før. Men forskjellen er at 5.2 faktisk bruker hele vinduet.
5.1: Droppet til 42% nøyaktighet ved 256K tokens med fire «needles in the haystack».
5.2: 98% nøyaktighet ved samme test.
Dette betyr at du faktisk kan ha lange samtaler uten at modellen «glemmer» hva dere snakket om i starten.
Min konklusjon
GPT-5.2 er en solid oppgradering. Ikke revolusjonerende, men merkbar på de områdene som faktisk betyr noe i hverdagen:
Klart bedre:
- Regneark og presentasjoner
- Visual reasoning og screenshot-analyse
- Tool use og komplekse oppgaver
- Long context (husker hele samtalen)
- Nøyaktig ordtelling (endelig!)
Litt bedre:
- Hallusinasjoner (30% reduksjon)
- Koding av enkle apper
Fortsatt middelmådig:
- Auto-modus velger feil
- Komplekse web-apper
- Kreativ skriving i din stemme
Fortsatt slått av konkurrentene:
- Claude Opus 4.5 er bedre på koding
- Gemini 3.0 pro er bedre på context håndtering
Er det verdt oppgraderingen? Hvis du bruker ChatGPT til seriøst arbeid – finansielle modeller, lange dokumenter, screenshot-analyse – ja, absolutt. Thinking-modellen med utvidet tenketid leverer resultater som 5.1 rett og slett ikke kunne.
Bare husk: Velg thinking manuelt. Ikke stol på auto.
GPT-5.2 er tilgjengelig nå for alle betalende ChatGPT-brukere. Pro-versjonen krever ChatGPT Pro eller Business-abonnement. Eller man kan kjøre den via Openrouter, til enormt høy pris 😮