Etter 20 år med å vurdere hva studenter trenger – ikke hvor de rangerer – har en assistive tech-instruktør laget et diagnostisk rammeverk for AI-modeller.
Fra klasserom til språkmodeller
De fleste AI-benchmarks kommer fra ML-forskere. Dette kommer fra en spesialpedagog.
Skaperen bak AI-SETT har en mastergrad i spesialpedagogikk og to tiår med erfaring i å vurdere elever med særskilte behov. Ikke for å rangere dem mot hverandre, men for å finne ut hva de trenger.
Den samme tilnærmingen har nå blitt brukt på AI-modeller.
Problemet med benchmarks
Tradisjonelle AI-benchmarks har en fundamental svakhet: De forteller deg hvilken modell som er «best», men ikke hva som mangler.
MMLU gir deg en prosentpoeng. HumanEval gir deg pass@1. Men ingen av dem forteller deg: «Denne modellen sliter med å opprettholde kontekst over lange samtaler» eller «Denne modellen er god på fakta, men dårlig på å innrømme usikkerhet».
AI-SETT snur hele tilnærmingen.
Hva er AI-SETT?
AI-SETT bygger på SETT-rammeverket fra spesialpedagogikk – Student, Environment, Tasks, Tools. I stedet for å spørre «hvor god er denne modellen?», spør den:
- Student (modellen): Hva kan den gjøre? Hvor er gapene?
- Environment: Hvilken kontekst skal den operere i?
- Tasks: Hva må den faktisk utføre?
- Tools: Hvilke intervensjoner vil hjelpe?
600 kriterier, 13 kategorier
Rammeverket inneholder 600 observerbare kriterier fordelt på 13 hovedkategorier:
Kognitive evner: Understanding (25), Reasoning (48), Knowledge med 15 domener (120)
Selvbevissthet: Calibration – vet modellen hva den ikke vet? (30), Boundaries (40), Metacognition (24)
Interaksjon: Generation (65), Interaction (24), Emotional intelligence (32)
Verktøybruk: Tool use – web search, kode, API-er, fil-håndtering (56)
Læring: Learning capability (40), Teaching capability (72), Meta-evaluation (24)
Gap-listen er viktigere enn totaltallet
Scoring er enkel: Demonstrert atferd får +1, ikke demonstrert får +0. Ingen normalisering. Ingen prosent.
Men her er det viktige: Gap-listen (+0) er viktigere enn totaltallet.
Hvis en modell scorer 450/600, er det interessante ikke tallet 450. Det interessante er de 150 kriteriene som mangler. Hva er mønsteret? Er det reasoning som svikter? Calibration? Tool use?
Goodhart’s Law-advarselen
Skaperen er krystallklar på én ting: Dette rammeverket vil miste all verdi hvis det blir en leaderboard.
Den øyeblikket noen sier «vår modell scoret 547/600» har vi tapt. Tallet er ikke poenget. Profilen er poenget.
Dette er Goodhart’s Law i praksis: Når et mål blir et target, slutter det å være et godt mål.
Grunnlagt i pedagogisk teori
AI-SETT bygger på etablerte pedagogiske rammeverk:
- SETT Framework (Zabala, 1995) – assistive technology assessment
- Cognitive Load Theory (Sweller) – hvordan sekvensere læring
- Zone of Proximal Development (Vygotsky) – hva kan læres med støtte?
Dette er verktøy som har blitt brukt på mennesker i årtier. Nå brukes de på AI.
En annen måte å tenke på
AI-SETT representerer noe viktig: En tverrfaglig tilnærming til AI-evaluering.
ML-feltet har mye å lære av pedagogikk. Lærere har vurdert komplekse, ikke-deterministiske systemer – mennesker – i århundrer. De har utviklet verktøy for å finne ut hva som mangler og hvordan man bygger videre.
Kanskje det er på tide at AI-feltet lytter.
AI-SETT er tilgjengelig på GitHub under MIT-lisens.