Innhold Vis
Hvis du bruker GPT-5.5 til noe som krever presisjon, bør du lese dette. En ny test med benchmarken AA-Omniscience viser at GPT-5.5 hallusinerer med 86 %, mens Z.ais GLM-5.2 – med MIT-lisens, altså gratis å bruke – ligger på 28 %. Det er tre ganger forskjell. Og det er ikke bare et kuriøst tall: det handler om et grunnleggende spørsmål om retningen AI-industrien tar.
Artikkelen «Bigger Models Are Not the Way» ble publisert 18. juni 2026 og har skapt mye debatt i utviklermiljøene. Tesen er ikke subtil: Å trene stadig større modeller er ikke svaret på AI-problemene – det gjør dem faktisk verre på noen dimensjoner.
Jeg synes dette er en av de mer interessante diskusjonene vi har sett på lenge, fordi den utfordrer selve premisset for hvordan OpenAI, Google og de store aktørene har tenkt om fremgang. Større er ikke alltid bedre. Det er verdt å se på hva dataene faktisk viser.
Hva er AA-Omniscience-benchmarken?
AA-Omniscience er benchmarken som brukes i artikkelen for å måle hallusinasjonsrater – altså i hvilken grad en modell produserer selvsikkert feil informasjon. Den er designet for å stresse-teste modellers evne til å si «jeg vet ikke» framfor å finne på noe som høres plausibelt ut.
Hallusinasjon er ikke det samme som å gjøre en beregningsfeil eller misforstå en instruksjon. Det er når modellen presenterer noe som fakta – med full selvsikkerhet – selv om det er galt. For deg som bruker AI til research, dokumentasjon, juridisk sammendrag eller teknisk analyse, er dette den mest alvorlige typen feil. En feil du er enig i er en du ikke oppdager.
Det er viktig å merke seg at dette er én benchmark, laget av én aktør, og det er berettiget skepsis til metodologien ute i utviklermiljøene. Men tallene er påfallende nok til at de er verdt å ta på alvor.

Hva sier tallene?
Her er AA-Omniscience-resultatene fra artikkelen, sortert etter hallusinasjonsrate:
DeepSeek V4 Pro: 94 % – Høyest hallusinasjonsrate av de testede modellene. Et overraskende dårlig resultat for en modell som har fått mye skryt på andre benchmarks.
GPT-5.5: 86 % – OpenAIs flaggskip-modell. 86 prosent hallusinasjonsrate på denne testen er ikke komfortabelt.
Fable 5: 48 % – Midt på treet, og et resultat som antyder at kurven kan flates ut.
Opus 4.8: 36 % – Anthropics modell gjør det vesentlig bedre enn de to øverste.
GLM-5.2: 28 % – Z.ais åpne modell, MIT-lisensiert, topper testen med lavest hallusinasjonsrate av alle. Tre ganger lavere enn GPT-5.5 – fra en modell som ikke koster deg noe å kjøre lokalt.
I tillegg til rene hallusinasjonstall sammenligner artikkelen GPT-5.5 og GLM-5.2 på en konkret Python asyncio-oppgave. GPT-5.5 brukte 3 minutter og 52 sekunder og 7 700 tokens – og ga feil svar, med høy selvsikkerhet. GLM-5.2 brukte 12 sekunder og 799 tokens, identifiserte at problemet var teknisk umulig, og ga riktig svar. Det er en ganske dramatisk demonstrasjon av poenget.
Er dette egentlig overraskende?
Litt, faktisk. Mange av oss har antatt at råstyrke og parameterstørrelse korrelerer med nøyaktighet. Det er en rimelig antakelse: større modell, mer kunnskap, bedre svar. Men det ser ut til at forholdet er mer komplisert enn som så.
Artikkelen argumenterer for at industrien er inne i en trilemma der tre faktorer trekker i ulike retninger: råkapasitet (evnen til å løse komplekse oppgaver), hallusinasjonskontroll (evnen til å si «jeg vet ikke» framfor å dikte opp svar), og effektivitet (tokens brukt per korrekt svar). Å skyve på én faktor hjelper ikke nødvendigvis på de andre – og kan faktisk skade dem.
GLM-5.2 ser ut til å ha prioritert usikkerhetskalibrering over rå størrelse. Det er et bevisst designvalg, og resultatene antyder at det var riktig valg for mange bruksområder. Jeg har tidligere skrevet om GLM-5.1 sin sterke prestasjon på koding, og det er interessant at Z.ai nå viser seg fra en annen sterk side. Da GLM-5.2 ble lansert helt uten benchmark-tall, var det nettopp denne typen praktisk styrke som var poenget framfor tallene.
Det er også verdt å nevne at GLM-serien har MIT-lisens. Det betyr at du kan kjøre den lokalt, integrere den i kommersielle produkter, og modifisere den – uten å betale noe. For en modell som overpresterer OpenAIs flaggskip på nøyaktighetsmålinger, er det et ganske sterkt argument.
Hva betyr dette for deg i praksis?
Det kommer an på hva du bruker AI til. Hvis du bruker GPT-5.5 til kreativt arbeid, brainstorming, kodeassistanse eller oppgaver der «feil» ikke er katastrofalt – er dette mindre kritisk. Modeller som hallusinerer mye er ikke ubrukelige; de er bare uegnede for oppgaver der presisjon er avgjørende.
Men hvis du bruker AI til fakta-sjekking eller research der du ikke dobbeltsjekker alt manuelt, juridiske eller medisinske sammendrag, teknisk dokumentasjon som andre skal stole på, eller agentbaserte arbeidsflyter der én feil kaskaderer til neste steg – da er dette data du bør ta på alvor. En modell som sier «jeg vet ikke» er langt mer nyttig enn en som finner på et svar som høres riktig ut.
Det er også et argument for å alltid teste med din faktiske brukscase, ikke bare stole på at størst betyr best. Stanford AI Index 2026 påpekte at det er blitt vanskelig å måle AI-fremgang nettopp fordi modellene scorer ulikt på ulike dimensjoner – dette er et godt eksempel på akkurat det.

Kritikken mot benchmarken
Det er viktig å ikke ta disse tallene for god fisk uten å kjenne begrensningene. AA-Omniscience er ikke en etablert, uavhengig benchmark på linje med MMLU eller HELM. Artikkelen er skrevet av én aktør, og det er uklart nøyaktig hvordan testen er gjennomført, om testsettet er offentlig tilgjengelig, og om resultatene er reproduserbare av andre.
Debatten rundt artikkelen inneholdt naturlig nok en god del skepsis til metodologien – spesielt til det faktum at GLM-5.2 scorer vesentlig bedre enn etablerte frontline-modeller, noe som er påfallende. Det kan reflektere reelle styrker i modellen, men det kan også reflektere at benchmarken er designet på en måte som tilfeldigvis favoriserer GLM-5.2s styrker.
Jeg er enig i at man bør være forsiktig. Enkeltbenchmarks er aldri hele bildet. Men det betyr ikke at funnene er uinteressante – de er et datapunkt blant mange, og de reiser spørsmål som er verdt å stille uansett: Hva prioriterer vi når vi trener store modeller? Er hallusinasjonskontroll et andreprioritetsmål? Og hvilken modell passer faktisk best til jobben du skal gjøre?
Større er ikke alltid smartere
Den egentlige tesen i artikkelen er bredere enn bare GPT-5.5 vs GLM-5.2. Den handler om at AI-industrien har en tendens til å løse problemer ved å kaste mer data og flere parametre på dem – og at dette til slutt gir avtakende avkastning, og i noen tilfeller negative bieffekter.
Det er et argument som fortjener å tas på alvor. Vi er i en periode der compute-konkurransen er intens, og der «vår nye modell er større» er blitt en standard lanseringsmelding. Men effektivitet, nøyaktighet og brukbarhet er ikke nødvendigvis de samme dimensjonene som råstyrke.
Z.ai valgte åpenhet (MIT-lisens) og ser ut til å ha valgt usikkerhetskalibrering over parametre. Resultatene på denne testen antyder at det var en god avveining – i hvert fall på nøyaktighetsdimensjonen. Det er noe vi bør følge med på fremover.
Har du testet GLM-5.2 selv? Jeg er nysgjerrig på om andre opplever det samme mønsteret i egne brukscase. Det er alltid mer interessant å høre fra folk som faktisk har brukt modellene til noe nyttig, enn å lene seg på én benchmark.
Ofte stilte spørsmål
Hva er AA-Omniscience-benchmarken som brukes i testen?
AA-Omniscience er en benchmark designet for å måle hallusinasjonsrate – altså i hvilken grad en AI-modell produserer selvsikkert feil informasjon. Den tester om modellen sier «jeg vet ikke» framfor å finne på svar. Benchmarken er ikke like etablert som MMLU eller HELM, og metodologien bør etterprøves av uavhengige aktører.
Kan jeg faktisk bruke GLM-5.2 gratis?
Ja. GLM-5.2 er MIT-lisensiert, som betyr at du fritt kan bruke den kommersielt, kjøre den lokalt, og bygge produkter med den. Du finner modellen via Z.ais offisielle kanaler og på plattformer som OpenRouter. Merk at du fortsatt trenger compute for å kjøre den lokalt.
Er disse hallusinasjonstallene representative for normal bruk?
Ikke nødvendigvis. AA-Omniscience er designet for å stresse-teste usikkerhetskalibrering, og tallene er høye for alle modellene. I praksis vil hallusinasjonsrate variere med oppgavetype. Bruk tallene som ett datapunkt, og test alltid med din faktiske brukscase.
Betyr dette at GPT-5.5 er en dårlig modell?
Nei, det betyr at GPT-5.5 scorer dårlig på én spesifikk nøyaktighetsbenchmark sammenlignet med GLM-5.2. GPT-5.5 har andre styrker, inkludert agentic kapabiliteter og bredde. Poenget er at «størst» ikke automatisk betyr «best» på alle dimensjoner – velg modell etter oppgave.