Etter 20 år med å vurdere hva studenter trenger – ikke hvor de rangerer – har en assistive tech-instruktør laget et diagnostisk rammeverk for AI-modeller.

Fra klasserom til språkmodeller

De fleste AI-benchmarks kommer fra ML-forskere. Dette kommer fra en spesialpedagog.

Skaperen bak AI-SETT har en mastergrad i spesialpedagogikk og to tiår med erfaring i å vurdere elever med særskilte behov. Ikke for å rangere dem mot hverandre, men for å finne ut hva de trenger.

Den samme tilnærmingen har nå blitt brukt på AI-modeller.

Problemet med benchmarks

Tradisjonelle AI-benchmarks har en fundamental svakhet: De forteller deg hvilken modell som er «best», men ikke hva som mangler.

MMLU gir deg en prosentpoeng. HumanEval gir deg pass@1. Men ingen av dem forteller deg: «Denne modellen sliter med å opprettholde kontekst over lange samtaler» eller «Denne modellen er god på fakta, men dårlig på å innrømme usikkerhet».

AI-SETT snur hele tilnærmingen.

Hva er AI-SETT?

AI-SETT bygger på SETT-rammeverket fra spesialpedagogikk – Student, Environment, Tasks, Tools. I stedet for å spørre «hvor god er denne modellen?», spør den:

  • Student (modellen): Hva kan den gjøre? Hvor er gapene?
  • Environment: Hvilken kontekst skal den operere i?
  • Tasks: Hva må den faktisk utføre?
  • Tools: Hvilke intervensjoner vil hjelpe?

600 kriterier, 13 kategorier

Rammeverket inneholder 600 observerbare kriterier fordelt på 13 hovedkategorier:

Kognitive evner: Understanding (25), Reasoning (48), Knowledge med 15 domener (120)

Selvbevissthet: Calibration – vet modellen hva den ikke vet? (30), Boundaries (40), Metacognition (24)

Interaksjon: Generation (65), Interaction (24), Emotional intelligence (32)

Verktøybruk: Tool use – web search, kode, API-er, fil-håndtering (56)

Læring: Learning capability (40), Teaching capability (72), Meta-evaluation (24)

Gap-listen er viktigere enn totaltallet

Scoring er enkel: Demonstrert atferd får +1, ikke demonstrert får +0. Ingen normalisering. Ingen prosent.

Men her er det viktige: Gap-listen (+0) er viktigere enn totaltallet.

Hvis en modell scorer 450/600, er det interessante ikke tallet 450. Det interessante er de 150 kriteriene som mangler. Hva er mønsteret? Er det reasoning som svikter? Calibration? Tool use?

Goodhart’s Law-advarselen

Skaperen er krystallklar på én ting: Dette rammeverket vil miste all verdi hvis det blir en leaderboard.

Den øyeblikket noen sier «vår modell scoret 547/600» har vi tapt. Tallet er ikke poenget. Profilen er poenget.

Dette er Goodhart’s Law i praksis: Når et mål blir et target, slutter det å være et godt mål.

Grunnlagt i pedagogisk teori

AI-SETT bygger på etablerte pedagogiske rammeverk:

  • SETT Framework (Zabala, 1995) – assistive technology assessment
  • Cognitive Load Theory (Sweller) – hvordan sekvensere læring
  • Zone of Proximal Development (Vygotsky) – hva kan læres med støtte?

Dette er verktøy som har blitt brukt på mennesker i årtier. Nå brukes de på AI.

En annen måte å tenke på

AI-SETT representerer noe viktig: En tverrfaglig tilnærming til AI-evaluering.

ML-feltet har mye å lære av pedagogikk. Lærere har vurdert komplekse, ikke-deterministiske systemer – mennesker – i århundrer. De har utviklet verktøy for å finne ut hva som mangler og hvordan man bygger videre.

Kanskje det er på tide at AI-feltet lytter.

AI-SETT er tilgjengelig på GitHub under MIT-lisens.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *

Meld deg på nyhetsbrevet

Få oppdateringer om AI nyhetene rett i inboxen!

Du liker kanskje denne også
Jan Sverre riding a dinosaur in safari outfit, photorealistic AI-generated image demonstrating Nano Banana Pro capabilities

Jeg testet Nano Banana Pro: AI som faktisk skriver norsk i bilder

Endelig! En AI som kan generere norsk tekst i bilder med 94% nøyaktighet. Jeg testet Nano Banana Pro grundig – her er resultatene.
Konseptillustrasjon av musikk som transformeres til digital kode - AI-musikk i 2026

Suno endrer alt i 2026 – mine tanker om AI-musikkens fremtid

Warner Music Group har inngått avtale med Suno AI. Det betyr slutten på wild west-æraen for AI-musikk. Gratis downloads forsvinner, v5-modellen fjernes, og en ny lisensiert modell tar over. Her er mine personlige refleksjoner om hva dette betyr for kreative som meg.
Jan Sverre i futuristisk kontor med AI-overvåkningsskjermer - AGI Artificial General Intelligence superintelligens

Hva Er AGI? Kunstig Generell Intelligens Forklart på Norsk (2026)

Hva er AGI? Når kommer superintelligensen? Og hvorfor bør du bekymre deg mer for overregulering enn for Skynet? Komplett guide til Artificial General Intelligence.
Jan Sverre omgitt av AI-modell logoer - OpenRouter unified API konsept

OpenRouter – Én API til alle AI-modellene (2025)

OpenRouter gir tilgang til 400+ AI-modeller gjennom én API. Jeg bruker det til n8n, React-apps og testing. Komplett guide med priser, GDPR og praktiske eksempler fra min egen bruk.