GPT-5.2: Jeg testet OpenAIs nyeste modell – her er hva som faktisk fungerer

Innhold Vis

OpenAI slapp GPT-5.2 i dag, og jeg har brukt formiddagen på å teste den. Tre versjoner, en haug med benchmarks, og løfter om at dette er den beste modellen de noensinne har laget.

Men stemmer det? Jeg kjørte de samme promptene på 5.1 og 5.2 for å se forskjellen selv.

De tre versjonene av GPT-5.2

Akkurat som 5.1 kommer 5.2 i tre varianter:

Instant – Tenker ikke, bare svarer raskt
Thinking – Bruker tid på å resonnere før den svarer
Pro – Den kraftigste versjonen (kun for Pro- og Business-abonnement)

Min anbefaling er den samme som før: Bruk thinking-modellen til nesten alt. De ekstra sekundene er verdt det. Auto-modusen velger ofte feil – den ga meg et galt svar på to sekunder i stedet for riktig svar på to minutter.

Jeg venter heller to minutter og får riktig svar.

Benchmarks: GPT-5.2 dominerer på papiret

OpenAI har publisert en haug med benchmarks, og tallene er imponerende:

AMY 2025 (matematikk):

GPT-5.2: 100% – Perfekt score
Gemini 3 Pro: 95%
Claude Opus 4.5: 92.8%

ARC-AGI 2 (generalisering):

GPT-5.1: 17%
GPT-5.2: 52.9%

Det er den store overraskelsen. ARC-AGI 2 tester modellens evne til å lære og generalisere – det nærmeste vi kommer en ekte test på generell intelligens. Et hopp fra 17% til 53% er massivt.

Effektivitetsforbedringen er vill: For ett år siden kostet det $4,500 per oppgave å score 88% på ARC-AGI. Nå scorer GPT-5.2 90.5% til $11 per oppgave. Det er 390 ganger mer effektivt.

Hallusinasjoner:

GPT-5.1: 8.8% feilrate
GPT-5.2: 6.2% feilrate

30% reduksjon i hallusinasjoner. Ikke enormt, men merkbart. Hver prosentpoeng teller når du skal stole på svarene.

Min test: Hva fungerer faktisk bedre?

Ocean Wave Simulation

Jeg ga begge modellene samme prompt: Lag en enkeltsides HTML-app med realistiske animerte bølger. Vindstyrke, bølgehøyde og belysning skal kunne justeres.

GPT-5.1: Laget noe som så ut som en tegnefilm. Teknisk sett gjorde den jobben, men det så ut som et spill fra 2005.

GPT-5.2: Resultatet så ut som en vitenskapelig simulering. Vannfysikken så realistisk ut. Kontrollene fungerte. Belysningen endret seg når jeg justerte tid på døgnet.

Klar forbedring.

Regneark og presentasjoner

Dette er kanskje der jeg merker størst forskjell. Jeg bruker ChatGPT til å lage workforce planning, budsjetter og presentasjoner hele tiden. Outputen fra 5.1 var alltid… funksjonell, men stygg. Mye manuelt arbeid for å få det brukbart.

GPT-5.2 lager regneark som faktisk ser profesjonelle ut. Formateringen er bedre. Layouten gir mening.

En presentasjon tok 28 minutter å generere (den hentet kilder og bygget slides), men resultatet var sjokkerende bra sammenlignet med hva 5.1 kunne levere. ChatGPT har aldri vært i stand til å lage noe så pent før.

Cap Table Management

Her blir det kritisk. Jeg testet en kompleks cap table med seed, Series A og Series B.

GPT-5.1: Beregnet feil på liquidation preferences. Lot flere rader stå tomme. Feil sluttberegning på equity payout.

GPT-5.2: Fikk alt riktig.

Dette er ikke en liten detalj. Feil i cap tables kan koste millioner. At modellen nå får dette riktig er en reell forbedring for alle som jobber med finans.

Ordtelling – Endelig!

Jeg har ventet på dette i årevis. AI-modeller har alltid vært elendige på å treffe eksakt ordtelling. Ber du om 300 ord, får du kanskje 247 eller 412.

Jeg ba GPT-5.2 thinking om å skrive en produktbeskrivelse på nøyaktig 300 ord.

Den leverte nøyaktig 300 ord.

Første gang noensinne at en modell har truffet eksakt. Den tenkte i nesten to minutter for å få det til, men den fikk det til.

Visual reasoning

Jeg bruker ChatGPT konstant til å analysere screenshots. «Hvor skal jeg klikke?» «Hva gjør denne knappen?»

Forbedringen her er målbar:

Screenshot-forståelse: 64% → 86%
Chart reasoning: 80% → 88%

I praksis betyr det at når jeg tar et screenshot av en app jeg ikke forstår, gir 5.2 meg mye mer presise svar om hvor ting er og hva de gjør.

Tool use

Dette er kanskje den mest imponerende forbedringen teknisk sett.

Jeg testet med et komplekst scenario: «Flyet mitt fra Paris til New York ble forsinket, jeg mistet tilkoblingen til Austin, bagasjen min er borte, jeg må overnatte i New York, og jeg trenger et spesielt sete av medisinske grunner.»

GPT-5.1: Noen få tool calls, ufullstendig løsning.

GPT-5.2: Lange kjeder av tool calls som faktisk løser hele problemet.

Benchmark-tallene bekrefter det: Fra 47% til 98.7% på telecom/kundeservice-oppgaver. Bokstavelig talt dobling.

Hva fungerer ikke?

Auto-modus velger fortsatt feil

Jeg hadde et visuelt puslespill – finn riktig toppvisning basert på fargene. Med auto-modus tenkte den i to sekunder og ga feil svar. Med thinking-modus tenkte den i to minutter og ga riktig svar.

Poenget: Ikke stol på at modellen velger riktig modus for deg. Velg thinking manuelt.

Komplekse web-apper er fortsatt hit-or-miss

Jeg testet en AI-verktøy-sammenligningsside med filtrering, dark mode og pop-ups. Visuelt så den mye bedre ut enn 5.1-versjonen. Men funksjonaliteten var delvis ødelagt – filtreringen fungerte ikke som den skulle.

5.2 skrev 1,800 linjer kode mot 5.1s 300 linjer. Mer kode er ikke alltid bedre kode.

Claude Opus 4.5 er fortsatt bedre på denne typen komplekse web-apper. LM Arena bekrefter det – Opus 4.5 er fortsatt #1 på koding, med GPT-5.2 på andreplass.

Hook-skriving er fortsatt middelmådig

Jeg ba den skrive hooks for en video uten mye kontekst, for å se hvor godt den husker skriverstilen min.

De fleste forslagene var ting jeg aldri ville sagt. Noen var brukbare, men dette er fortsatt et område der AI-modeller generelt sliter.

Prising: Dyrere, men verdt det?

Her er elefanten i rommet:

	GPT-5.1	GPT-5.2
Input (per million tokens)	$1.25	$1.75
Output (per million tokens)	$10	$14

40% dyrere på input, 40% dyrere på output. Ikke ubetydelig.

Men hvis du bruker modellen til økonomisk verdifullt arbeid – cap tables, finansielle modeller, komplekse presentasjoner – er forbedringene verdt prisen.

Long context: Endelig fungerer det

Kontekstvinduet er fortsatt 256K tokens, samme som før. Men forskjellen er at 5.2 faktisk bruker hele vinduet.

5.1: Droppet til 42% nøyaktighet ved 256K tokens med fire «needles in the haystack».

5.2: 98% nøyaktighet ved samme test.

Dette betyr at du faktisk kan ha lange samtaler uten at modellen «glemmer» hva dere snakket om i starten.

Min konklusjon

GPT-5.2 er en solid oppgradering. Ikke revolusjonerende, men merkbar på de områdene som faktisk betyr noe i hverdagen:

Klart bedre:

Regneark og presentasjoner
Visual reasoning og screenshot-analyse
Tool use og komplekse oppgaver
Long context (husker hele samtalen)
Nøyaktig ordtelling (endelig!)

Litt bedre:

Hallusinasjoner (30% reduksjon)
Koding av enkle apper

Fortsatt middelmådig:

Auto-modus velger feil
Komplekse web-apper
Kreativ skriving i din stemme

Fortsatt slått av konkurrentene:

Claude Opus 4.5 er bedre på koding
Gemini 3.0 pro er bedre på context håndtering

Er det verdt oppgraderingen? Hvis du bruker ChatGPT til seriøst arbeid – finansielle modeller, lange dokumenter, screenshot-analyse – ja, absolutt. Thinking-modellen med utvidet tenketid leverer resultater som 5.1 rett og slett ikke kunne.

Bare husk: Velg thinking manuelt. Ikke stol på auto.

GPT-5.2 er tilgjengelig nå for alle betalende ChatGPT-brukere. Pro-versjonen krever ChatGPT Pro eller Business-abonnement. Eller man kan kjøre den via Openrouter, til enormt høy pris 😮

Nærmer vi oss AGI? Les Hva Er AGI? Kunstig Generell Intelligens Forklart (2026).

Ny til ChatGPT? Start med ChatGPT Norsk Guide – Slik Kommer Du i Gang (2026).

GPT-5.2: Jeg testet OpenAIs nyeste modell – her er hva som faktisk fungerer

Neste

Gemini – Slik bruker jeg Googles AI i hverdagen

Skribent

Jan Sverre Bauge

Del artikkel

Innhold Vis

De tre versjonene av GPT-5.2

Benchmarks: GPT-5.2 dominerer på papiret

Min test: Hva fungerer faktisk bedre?

Ocean Wave Simulation

Regneark og presentasjoner

Cap Table Management

Ordtelling – Endelig!

Visual reasoning

Tool use

Hva fungerer ikke?

Auto-modus velger fortsatt feil

Komplekse web-apper er fortsatt hit-or-miss

Hook-skriving er fortsatt middelmådig

Prising: Dyrere, men verdt det?

Long context: Endelig fungerer det

Min konklusjon

1 kommentar

Legg igjen en kommentar Avbryt svar

Suno AI Copyright 2026 – Opphavsrett og Rettigheter for AI-Musikk

YouTube lar deg lage din egen AI-videofeed – slik fungerer det

Google NotebookLM

Claude Code Pris 2026 – Hva Koster Det Egentlig?

Glutenfri sitronkake – min beste oppskrift

Amazon droppet Sam Altman-filmen etter 50 milliarder til OpenAI – nå vil ingen ha den

Hva koster Claude AI? Priser for Free, Pro og Max i 2026

Lage sang med AI: Det jeg lærte av 150 Suno-låter

Suno AI Copyright 2026 – Opphavsrett og Rettigheter for AI-Musikk

Glutenfri sitronkake – min beste oppskrift

Kaffegrut i Hagen – Slik Bruker Du Det som Gjødsel og Skadedyrbekjemper

Sterk Chili Kaffe

Stekt Kylling i Airfryer

GPT-5.2: Jeg testet OpenAIs nyeste modell – her er hva som faktisk fungerer

Neste

Skribent

Del artikkel

Innhold Vis

De tre versjonene av GPT-5.2

Benchmarks: GPT-5.2 dominerer på papiret

Min test: Hva fungerer faktisk bedre?

Ocean Wave Simulation

Regneark og presentasjoner

Cap Table Management

Ordtelling – Endelig!

Visual reasoning

Tool use

Hva fungerer ikke?

Auto-modus velger fortsatt feil

Komplekse web-apper er fortsatt hit-or-miss

Hook-skriving er fortsatt middelmådig

Prising: Dyrere, men verdt det?

Long context: Endelig fungerer det

Min konklusjon

1 kommentar

Legg igjen en kommentar Avbryt svar

Meld deg på nyhetsbrevet

Du liker kanskje denne også