Jan Sverre Bauge utforsker AI-SETT rammeverket for AI-evaluering
Når pedagogikk møter AI-evaluering.

Etter 20 år med å vurdere hva studenter trenger – ikke hvor de rangerer – har en assistive tech-instruktør laget et diagnostisk rammeverk for AI-modeller.

Fra klasserom til språkmodeller

De fleste AI-benchmarks kommer fra ML-forskere. Dette kommer fra en spesialpedagog.

Skaperen bak AI-SETT har en mastergrad i spesialpedagogikk og to tiår med erfaring i å vurdere elever med særskilte behov. Ikke for å rangere dem mot hverandre, men for å finne ut hva de trenger.

Den samme tilnærmingen har nå blitt brukt på AI-modeller.

Problemet med benchmarks

Tradisjonelle AI-benchmarks har en fundamental svakhet: De forteller deg hvilken modell som er «best», men ikke hva som mangler.

MMLU gir deg en prosentpoeng. HumanEval gir deg pass@1. Men ingen av dem forteller deg: «Denne modellen sliter med å opprettholde kontekst over lange samtaler» eller «Denne modellen er god på fakta, men dårlig på å innrømme usikkerhet».

AI-SETT snur hele tilnærmingen.

Hva er AI-SETT?

AI-SETT bygger på SETT-rammeverket fra spesialpedagogikk – Student, Environment, Tasks, Tools. I stedet for å spørre «hvor god er denne modellen?», spør den:

  • Student (modellen): Hva kan den gjøre? Hvor er gapene?
  • Environment: Hvilken kontekst skal den operere i?
  • Tasks: Hva må den faktisk utføre?
  • Tools: Hvilke intervensjoner vil hjelpe?

600 kriterier, 13 kategorier

Rammeverket inneholder 600 observerbare kriterier fordelt på 13 hovedkategorier:

Kognitive evner: Understanding (25), Reasoning (48), Knowledge med 15 domener (120)

Selvbevissthet: Calibration – vet modellen hva den ikke vet? (30), Boundaries (40), Metacognition (24)

Interaksjon: Generation (65), Interaction (24), Emotional intelligence (32)

Verktøybruk: Tool use – web search, kode, API-er, fil-håndtering (56)

Læring: Learning capability (40), Teaching capability (72), Meta-evaluation (24)

Gap-listen er viktigere enn totaltallet

Scoring er enkel: Demonstrert atferd får +1, ikke demonstrert får +0. Ingen normalisering. Ingen prosent.

Men her er det viktige: Gap-listen (+0) er viktigere enn totaltallet.

Hvis en modell scorer 450/600, er det interessante ikke tallet 450. Det interessante er de 150 kriteriene som mangler. Hva er mønsteret? Er det reasoning som svikter? Calibration? Tool use?

Goodhart’s Law-advarselen

Skaperen er krystallklar på én ting: Dette rammeverket vil miste all verdi hvis det blir en leaderboard.

Den øyeblikket noen sier «vår modell scoret 547/600» har vi tapt. Tallet er ikke poenget. Profilen er poenget.

Dette er Goodhart’s Law i praksis: Når et mål blir et target, slutter det å være et godt mål.

Grunnlagt i pedagogisk teori

AI-SETT bygger på etablerte pedagogiske rammeverk:

  • SETT Framework (Zabala, 1995) – assistive technology assessment
  • Cognitive Load Theory (Sweller) – hvordan sekvensere læring
  • Zone of Proximal Development (Vygotsky) – hva kan læres med støtte?

Dette er verktøy som har blitt brukt på mennesker i årtier. Nå brukes de på AI.

En annen måte å tenke på

AI-SETT representerer noe viktig: En tverrfaglig tilnærming til AI-evaluering.

ML-feltet har mye å lære av pedagogikk. Lærere har vurdert komplekse, ikke-deterministiske systemer – mennesker – i århundrer. De har utviklet verktøy for å finne ut hva som mangler og hvordan man bygger videre.

Kanskje det er på tide at AI-feltet lytter.

AI-SETT er tilgjengelig på GitHub under MIT-lisens.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *

You May Also Like

Jeg testet Nano Banana Pro: AI som faktisk skriver norsk i bilder

Endelig! En AI som kan generere norsk tekst i bilder med 94% nøyaktighet. Jeg testet Nano Banana Pro grundig – her er resultatene.

Suno endrer alt i 2026 – mine tanker om AI-musikkens fremtid

Warner Music Group har inngått avtale med Suno AI. Det betyr slutten på wild west-æraen for AI-musikk. Gratis downloads forsvinner, v5-modellen fjernes, og en ny lisensiert modell tar over. Her er mine personlige refleksjoner om hva dette betyr for kreative som meg.

AGI – Artificial General Intelligence: Komplett guide til superintelligens

Hva er AGI? Når kommer superintelligensen? Og hvorfor bør du bekymre deg mer for overregulering enn for Skynet? Komplett guide til Artificial General Intelligence.

OpenRouter – Én API til alle AI-modellene (2025)

OpenRouter gir tilgang til 400+ AI-modeller gjennom én API. Jeg bruker det til n8n, React-apps og testing. Komplett guide med priser, GDPR og praktiske eksempler fra min egen bruk.