Jan Sverre ser opp på et digitalt benchmark-leaderboard der Xiaomi MiMo-V2-Pro klatrer forbi Claude Opus 4.6 og GPT-5.2

Xiaomi MiMo-V2-Pro – telefonselskapet som konkurrerer med Anthropic på AI-benchmarks

Xiaomi lanserte MiMo-V2-Pro 18. mars 2026 – en AI-modell med over 1 billion parametere som rangerer nr. 3 globalt på agent-benchmarks, rett bak Claude Opus 4.6. Til en åttendedel av prisen.
Jan Sverre reagerer på resultater fra LLM sycophancy benchmark som avslører at AI-modeller snur dommen sin basert på hvem som snakker

LLM Sycophancy Benchmark – hvem snur dommen sin for å behage deg?

Et nytt benchmark tester 16 AI-modeller på sykofansi — snur de dommen sin basert på hvem som forteller historien? Gemini 3.1 Pro scorer best med 0,5 %, Mistral Large 3 er verst med 31,2 %. 199 testcaser, overraskende resultater.