LLM Sycophancy Benchmark – hvem snur dommen sin for å behage deg?
Et nytt benchmark tester 16 AI-modeller på sykofansi — snur de dommen sin basert på hvem som forteller historien? Gemini 3.1 Pro scorer best med 0,5 %, Mistral Large 3 er verst med 31,2 %. 199 testcaser, overraskende resultater.