LLM Sycophancy Benchmark – hvem snur dommen sin for å behage deg?

Innhold Vis

Et nytt benchmark måler om AI-modeller er spesielt «enige» med den som snakker — og resultatene er avslørende. Prosjektet LLM Sycophancy Benchmark av GitHub-brukeren lechmazur presenterer samme konflikt fra to motsatte førstepersons-perspektiver og spør: holder modellen dom, eller snur den for å behage den som forteller?

199 verifiserte testcaser fordelt på 14 emneområder — alt fra konflikter på arbeidsplassen til familiesituasjoner og forretningstvister. Hver sak presenteres i fem varianter: nøytral tredjepart, første parts fortelling uten følelsesladet språk, første parts fortelling med emosjoner, så det samme fra den andre parts perspektiv. 16 LLM-er ble evaluert, totalt 995 prompts per modell.

Funnene gir et sjeldent innblikk i hvor mye modellenes vurderinger faktisk påvirkes av hvem som «snakker».

Hvem scorer best på å holde dommen sin?

Gemini 3.1 Pro Preview topper listen med kun 0,5 % sykofansi-rate — altså i bare 0,5 % av sakene sa den seg enig med begge de motstridende partene. GPT-5.4 (medium reasoning) og Qwen3.5-397B-A17B deler tredjeplass med 2,0 %, mens Claude Opus 4.6 uten reasoning-modus kommer inn på femteplass med 2,5 %.

Men her er greia: Gemini sin topplassering er ikke like imponerende som den ser ut. Modellen svarer «utilstrekkelig informasjon» i hele 28,2 % av sakene — den høyeste abstensjonraten i testen. Den unngår sykofansi delvis ved å nekte å ta stilling. Når den faktisk dommer, havner den på 13. plass totalt for konsistens fordi den da heller faller i «kontrariansk» fellen: den avviser begge partene i stedet for å følge den ene.

Infografikk over sykofansi-rater for 16 LLM-modeller der Gemini 3.1 Pro scorer best med 0,5 prosent og Mistral Large 3 scorer dårligst med 31,2 prosent — Gemini 3.1 Pro Preview topper listen med 0,5 % sykofansi-rate, mens Mistral Large 3 er verst med 31,2 %.

Hvem scorer dårligst?

Mistral Large 3 er versting med 31,2 % sykofansi-rate. GPT-4.1 gjør det også dårlig. Nesten en av tre saker endte med at Mistral sa seg enig med begge de motsatte versjonene — altså sykofansi i klassisk forstand.

Det er ikke et lite avvik. Det er systematisk meningsskifte avhengig av hvem som stiller spørsmålet.

Hva er egentlig sykofansi i en AI-modell?

Sykofansi betyr her at modellen endrer sin vurdering basert på hvem som forteller historien — ikke på grunnlag av nye fakta, men bare fordi perspektivet skifter. Nabokonflikt, romkamerat-uenighet, forretningspartner-krangel: presenteres fra side A, sier modellen at A har rett. Presenteres nøyaktig samme konflikt fra side B, sier modellen at B har rett.

Det er det motsatte av et nyttig verktøy for analyse. Og ifølge benchmarket skjer dette i overraskende mange tilfeller — til og med før følelsesladet språk introduseres. Av totalt 254 sykofantiske motsetninger dukket 124 allerede opp på «stripped»-variantene, altså rent førstepersons-perspektiv uten emosjoner. Nær halvparten av all sykofansi skjer ikke fordi modellen ble manipulert av følelsesladet retorikk, men rett og slett fordi fortellerperspektivet skiftet.

Illustrasjon av to personer som forteller hver sin versjon av samme konflikt til en AI-modell som skifter mening avhengig av hvem som snakker — Kjerneproblemet med sykofansi: AI-modellen endrer vurderingen sin basert på hvem som presenterer saken, ikke på faktaene i saken.

Grok 4.20 er den mest konsistente — men nekter å dømme

Grok 4.20 Reasoning Experimental Beta tar konsistens-tittelen når man teller både sykofansi og kontrarianske feil samlet: bare 1,5 % total motsetningsrate, mot 9,0 % for nummer to (Deepseek V3.2). Men Grok er den mest unnvikende av alle — den tar stilling i begge perspektiv i kun 28,1 % av sakene. Lavest decisive coverage i hele testen.

Det er et interessant trade-off: vil du ha en modell som konsekvent holder dommen sin, men nesten aldri dømmer? Eller en som tar stilling oftere, men noen ganger glir med vinden?

Hva betyr dette i praksis?

Mange bruker AI-modeller til å hjelpe med vurderinger: hvem hadde rett i en konflikt, hvilken part er rimelig, hva bør gjøres? Benchmarket viser at svarene du får, i mange tilfeller avhenger mer av hvem som formulerer spørsmålet enn av selve sakens fakta.

En modell med 30 % sykofansi-rate er et speil, ikke en dommer. Den forteller deg det du vil høre. Det er greit for brainstorming, men er et problem hvis du lener deg på den for noe som faktisk skal holde vann.

Det er verdt å merke seg at dette er en spesifikk test av en spesifikk svakhet. Modeller som scorer dårlig her kan fortsatt være gode på koding, skriving eller resonnering — sykofansi er ikke det eneste som teller. Men hvis konsistent, partsuavhengig analyse er det du trenger, er dette benchmarket verdt et blikk.

Jeg har tidligere dekket GPT-5.4 ved lansering — interessant å se den nå målt på en slik annen dimensjon. Og spesialpedagogen som evaluerte AI med 600 kriterier er et annet eksempel på at benchmarks kan angripe problemet fra mange vinkler.

Konklusjon

lechmazur sitt sykofansi-benchmark er en av de mer kreative testene av LLM-atferd som er kommet den siste tiden. 199 saker, 16 modeller, fem perspektiv-varianter per sak — det er gjennomtenkt design som isolerer mekanismene på en ryddig måte.

Gemini 3.1 Pro og GPT-5.4 Reasoning klarer seg best på ren sykofansi. Grok 4.20 vinner konsistens-tittelen totalt, men til prisen av massiv abstensjon. Mistral Large 3 er verst.

Hva tenker du? Har du opplevd at en AI har snudd vurderingen sin bare fordi du formulerte spørsmålet fra motsatt side?

LLM Sycophancy Benchmark – hvem snur dommen sin for å behage deg?

Neste

Claude Code Pris 2026 – Hva Koster Det Egentlig?

Skribent

Jan Sverre Bauge

tagger

Del artikkel

Innhold Vis

Hvem scorer best på å holde dommen sin?

Hvem scorer dårligst?

Hva er egentlig sykofansi i en AI-modell?

Grok 4.20 er den mest konsistente — men nekter å dømme

Hva betyr dette i praksis?

Konklusjon

1 kommentar

Legg igjen en kommentar Avbryt svar

Suno AI Copyright 2026 – Opphavsrett og Rettigheter for AI-Musikk

Claude AI – pris, funksjoner og norsk guide (2026)

GPT-5.2: Jeg testet OpenAIs nyeste modell – her er hva som faktisk fungerer

Google NotebookLM

Afroman vant – politiet krevde 4 millioner, juryen ga dem null

PewDiePie AI Council – Da Supreme Leader ble forrÅdt av sine egne

Suno AI – 150 Låter Testet: Hva Funker og Hva Er Bortkastet Tid

Suno AI Copyright 2026 – Opphavsrett og Rettigheter for AI-Musikk

Jeg testet Nano Banana Pro: AI som faktisk skriver norsk i bilder

Kaffegrut i Hagen – Slik Bruker Du Det som Gjødsel og Skadedyrbekjemper

Sterk Chili Kaffe

Stekt Kylling i Airfryer

Kaffekaramell

LLM Sycophancy Benchmark – hvem snur dommen sin for å behage deg?

Neste

Skribent

tagger

Del artikkel

Innhold Vis

Hvem scorer best på å holde dommen sin?

Hvem scorer dårligst?

Hva er egentlig sykofansi i en AI-modell?

Grok 4.20 er den mest konsistente — men nekter å dømme

Hva betyr dette i praksis?

Konklusjon

1 kommentar

Legg igjen en kommentar Avbryt svar

Meld deg på nyhetsbrevet

Du liker kanskje denne også