En spesialpedagog vurderer AI: 600 kriterier som ikke er en benchmark

Innhold Vis

Etter 20 år med å vurdere hva studenter trenger – ikke hvor de rangerer – har en assistive tech-instruktør laget et diagnostisk rammeverk for AI-modeller.

Fra klasserom til språkmodeller

De fleste AI-benchmarks kommer fra ML-forskere. Dette kommer fra en spesialpedagog.

Skaperen bak AI-SETT har en mastergrad i spesialpedagogikk og to tiår med erfaring i å vurdere elever med særskilte behov. Ikke for å rangere dem mot hverandre, men for å finne ut hva de trenger.

Den samme tilnærmingen har nå blitt brukt på AI-modeller.

Problemet med benchmarks

Tradisjonelle AI-benchmarks har en fundamental svakhet: De forteller deg hvilken modell som er «best», men ikke hva som mangler.

MMLU gir deg en prosentpoeng. HumanEval gir deg pass@1. Men ingen av dem forteller deg: «Denne modellen sliter med å opprettholde kontekst over lange samtaler» eller «Denne modellen er god på fakta, men dårlig på å innrømme usikkerhet».

AI-SETT snur hele tilnærmingen.

Hva er AI-SETT?

AI-SETT bygger på SETT-rammeverket fra spesialpedagogikk – Student, Environment, Tasks, Tools. I stedet for å spørre «hvor god er denne modellen?», spør den:

Student (modellen): Hva kan den gjøre? Hvor er gapene?
Environment: Hvilken kontekst skal den operere i?
Tasks: Hva må den faktisk utføre?
Tools: Hvilke intervensjoner vil hjelpe?

600 kriterier, 13 kategorier

Rammeverket inneholder 600 observerbare kriterier fordelt på 13 hovedkategorier:

Kognitive evner: Understanding (25), Reasoning (48), Knowledge med 15 domener (120)

Selvbevissthet: Calibration – vet modellen hva den ikke vet? (30), Boundaries (40), Metacognition (24)

Interaksjon: Generation (65), Interaction (24), Emotional intelligence (32)

Verktøybruk: Tool use – web search, kode, API-er, fil-håndtering (56)

Læring: Learning capability (40), Teaching capability (72), Meta-evaluation (24)

Gap-listen er viktigere enn totaltallet

Scoring er enkel: Demonstrert atferd får +1, ikke demonstrert får +0. Ingen normalisering. Ingen prosent.

Men her er det viktige: Gap-listen (+0) er viktigere enn totaltallet.

Hvis en modell scorer 450/600, er det interessante ikke tallet 450. Det interessante er de 150 kriteriene som mangler. Hva er mønsteret? Er det reasoning som svikter? Calibration? Tool use?

Goodhart’s Law-advarselen

Skaperen er krystallklar på én ting: Dette rammeverket vil miste all verdi hvis det blir en leaderboard.

Den øyeblikket noen sier «vår modell scoret 547/600» har vi tapt. Tallet er ikke poenget. Profilen er poenget.

Dette er Goodhart’s Law i praksis: Når et mål blir et target, slutter det å være et godt mål.

Grunnlagt i pedagogisk teori

AI-SETT bygger på etablerte pedagogiske rammeverk:

SETT Framework (Zabala, 1995) – assistive technology assessment
Cognitive Load Theory (Sweller) – hvordan sekvensere læring
Zone of Proximal Development (Vygotsky) – hva kan læres med støtte?

Dette er verktøy som har blitt brukt på mennesker i årtier. Nå brukes de på AI.

En annen måte å tenke på

AI-SETT representerer noe viktig: En tverrfaglig tilnærming til AI-evaluering.

ML-feltet har mye å lære av pedagogikk. Lærere har vurdert komplekse, ikke-deterministiske systemer – mennesker – i århundrer. De har utviklet verktøy for å finne ut hva som mangler og hvordan man bygger videre.

Kanskje det er på tide at AI-feltet lytter.

AI-SETT er tilgjengelig på GitHub under MIT-lisens.

En spesialpedagog vurderer AI: 600 kriterier som ikke er en benchmark

Neste

Google lanserer Agentic Vision: AI som aktivt utforsker bilder

Skribent

Jan Sverre Bauge

Del artikkel

Innhold Vis

Fra klasserom til språkmodeller

Problemet med benchmarks

Hva er AI-SETT?

600 kriterier, 13 kategorier

Gap-listen er viktigere enn totaltallet

Goodhart’s Law-advarselen

Grunnlagt i pedagogisk teori

En annen måte å tenke på

Legg igjen en kommentar Avbryt svar

Jeg testet Nano Banana Pro: AI som faktisk skriver norsk i bilder

Suno endrer alt i 2026 – mine tanker om AI-musikkens fremtid

Hva Er AGI? Kunstig Generell Intelligens Forklart på Norsk (2026)

OpenRouter – Én API til alle AI-modellene (2025)

Afroman vant – politiet krevde 4 millioner, juryen ga dem null

PewDiePie AI Council – Da Supreme Leader ble forrÅdt av sine egne

Suno AI – 150 Låter Testet: Hva Funker og Hva Er Bortkastet Tid

Suno AI Copyright 2026 – Opphavsrett og Rettigheter for AI-Musikk

Jeg testet Nano Banana Pro: AI som faktisk skriver norsk i bilder

Kaffegrut i Hagen – Slik Bruker Du Det som Gjødsel og Skadedyrbekjemper

Sterk Chili Kaffe

Stekt Kylling i Airfryer

Kaffekaramell

En spesialpedagog vurderer AI: 600 kriterier som ikke er en benchmark

Neste

Skribent

Del artikkel

Innhold Vis

Fra klasserom til språkmodeller

Problemet med benchmarks

Hva er AI-SETT?

600 kriterier, 13 kategorier

Gap-listen er viktigere enn totaltallet

Goodhart’s Law-advarselen

Grunnlagt i pedagogisk teori

En annen måte å tenke på

Legg igjen en kommentar Avbryt svar

Meld deg på nyhetsbrevet

Du liker kanskje denne også