Forsker med utskrifter av AI-benchmark-score som viser 100% resultater ved skrivebordet

AI-agentbenchmarks brutt av Berkeley – 100% score uten å løse én oppgave

UC Berkeley-forskere bygget en agent som scoret 100% på åtte store AI-agentbenchmarks – uten å løse en eneste oppgave. Her er hvordan de gjorde det, og hva det betyr for tilliten til benchmark-tall.