Jan Sverre reagerer på resultater fra LLM sycophancy benchmark som avslører at AI-modeller snur dommen sin basert på hvem som snakker

LLM Sycophancy Benchmark – hvem snur dommen sin for å behage deg?

Et nytt benchmark tester 16 AI-modeller på sykofansi — snur de dommen sin basert på hvem som forteller historien? Gemini 3.1 Pro scorer best med 0,5 %, Mistral Large 3 er verst med 31,2 %. 199 testcaser, overraskende resultater.