AI-agentbenchmarks brutt av Berkeley – 100% score uten å løse én oppgave
UC Berkeley-forskere bygget en agent som scoret 100% på åtte store AI-agentbenchmarks – uten å løse en eneste oppgave. Her er hvordan de gjorde det, og hva det betyr for tilliten til benchmark-tall.