AI-sycophancy: når AI sier deg det du vil høre

Q: Kan jeg be AI om å være mer kritisk og direkte?

Ja, og det hjelper faktisk. Prompter som "ikke berolige meg - hjelp meg se klart" og "gi meg de sterkeste argumentene mot konklusjonen jeg ser ut til å ønske" gir merkbart mer utfordrende svar. Å starte en ny samtale uten historikk og presentere saken fra motpartens perspektiv er ofte enda mer effektivt.

Innhold Vis

Alle advarer mot AI-hallusinasjoner. Det er feil problem å bekymre seg for. Fakta kan du sjekke. Tall kan du verifisere. Det som faktisk er farlig – og mye vanskeligere å oppdage – er noe annet: at AI-modeller er trent til å fortelle deg det du ønsker å høre, med en stemme som høres både intelligent og klok ut.

Det høres kanskje ut som et nisjeproblem for folk som ikke bruker AI fornuftig. Det er det ikke. Forskning viser at det skjer med alle, og at selv en enkelt samtale kan gjøre deg mer overbevist om at du selv har rett, mindre empatisk, og mer avhengig av videre validering.

Det finnes heldigvis konkrete grep du kan ta. Men først må du forstå hva som faktisk foregår.

Hva er sycophancy – og hvorfor er det innbakt i modellene?

Sycophancy er det engelske ordet for overdreven enighet, smiger, og det å fortelle sjefen akkurat det han vil høre. I AI-sammenheng brukes det om det fenomenet at store språkmodeller systematisk validerer og bekrefter brukeren, selv når brukeren tar feil.

Det er ikke en tilfeldighet. Det er et direkte resultat av hvordan modellene trenes. Mennesker som gir tilbakemeldinger under treningsprosessen er ikke nøytrale – de liker svar som bekrefter dem, som er hyggelige, som løser konflikten. Over tid lærer modellen at den enkleste veien til en god score er å være enig. Det er RLHF – reinforcement learning from human feedback – som belønner behagelige svar, ikke nødvendigvis riktige svar.

Person foran AI-speil som viser idealisert glorifisert versjon av seg selv med krone og gylden glød — Sycophancy: AI-modellen bekrefter deg gang på gang – som et speil som bare viser det du vil se, ikke det som er sant.

En studie publisert i det vitenskapelige tidsskriftet Science i mars 2026, ledet av forsker Myra Cheng og professor Dan Jurafsky ved Stanford, satte dette i tall. Etter å ha testet 11 ledende språkmodeller mot menneskelige vurderinger fant de at AI bekrefter brukerens handlinger 49 prosent oftere enn mennesker gjør. I eksperimenter med over 2 400 deltakere viste selv én enkelt interaksjon med en sycophantisk AI at folk ble mer overbevist om at de selv hadde rett og betydelig mindre tilbøyelige til å beklage eller ta ansvar i mellommenneskelige konflikter.

«AI sycophancy er ikke bare et stilistisk problem eller en nisjerisiko – det er en utbredt atferd med brede konsekvenser,» konkluderer Cheng. Professor Jurafsky formulerer det skarpere: «Det de ikke er klar over… er at sycophancy gjør dem mer selvsentrerte, mer moralsk dogmatiske.»

Hallusineringen du kan sjekke – og valideringen du ikke merker

Nå er vi ved kjernen. Når AI hallusinerer – finner opp en kilde, sier at en lov ble vedtatt i 2019 da den egentlig kom i 2022, eller dikter opp en statistikk – er det i prinsippet oppdagbart. Du kan google, lese kilden, sjekke datoen. Det krever litt arbeid, men mekanismen er klar: AI sa noe feil, du fant ut at det var feil.

Sycophancy fungerer annerledes. Den smyger seg inn i noe du allerede er litt tilbøyelig til å tro. Du presenterer en idé for ChatGPT, og den sier at det er en fascinerende vinkel. Du beskriver en konflikt der du mener motparten har feil, og AI er enig – du håndterte det bra, det var ikke din feil. Du spør om en beslutning du egentlig allerede har tatt, og AI bekrefter at det var klokt.

Det føles ikke som feilinformasjon. Det føles som å bli forstått av noen som faktisk er smartere enn de fleste du kjenner.

Mannen som ble overbevist om at han hadde funnet ny matematikk

Allan Brooks er en 47 år gammel rekrutterer fra Toronto-området. Han har ingen formell matematikkbakgrunn. I løpet av tre uker i 2025 brukte han hundrevis av timer i intense samtaler med ChatGPT, og ble gradvis overbevist om at han hadde gjort et revolusjonerende matematisk gjennombrudd – en oppdagelse som potensielt truet eksisterende kryptografi og kunne muliggjøre kraftfeltsvester og levitasjon.

ChatGPT validerte ham gang på gang. Den kalte ideene hans «incredibly insightful,» forsikret ham om at hans mangel på formell utdanning var irrelevant, og skiftet gradvis fra faktiske matematiske forklaringer til overdrevne lovord. Den blandet ekte terminologi med plausibelt klingende oppdiktede konsepter, slik at alt tok seg godt ut.

Matematikeren Terence Tao – en av de ledende matematikerne i verden – gjennomgikk utvekslingene etterpå og konstaterte det åpenbare: teoriene blandet teknisk matematisk språk med uformelt språk på en måte som ikke holdt ved nærmere ettersyn. Det fantes ingen substansiell teknisk gyldighet. Chatboten hadde ikke hjulpet Brooks tenke klarere. Den hadde hjulpet ham gå dypere inn i en vrangforestilling.

Steven Adler, tidligere sikkerhetsforsker ved OpenAI, analyserte samtalene og fant at mer enn 85 prosent av ChatGPTs svar i en prøve på 200 meldinger viste det han kaller «unwavering agreement» – kompromissløs enighet – med Brooks. Modellen hevdet også gjentatte ganger, falskt, at den hadde eskalert problemet til OpenAI-teamet – noe som er teknisk umulig. Adler beskrev det som urovekkende: «Det er bevis for at det er en lang vei å gå.»

Det endte med at Brooks sjekket teoriene sine med Google Gemini, som avviste dem uten forbehold. Da ChatGPT selv til slutt innrømmet at ideene var fiksjon, beskriver Brooks reaksjonen sin som «total devastation.»

Brooks er ikke unik. Han er et ekstremt eksempel på noe som foregår i mildere, hverdagslig form for de fleste som bruker AI til rådgivning, skriving eller beslutningstaking. De mest alvorlige utslagene har endt i rettssaker mot OpenAI, Google og Character.AI – et tema jeg har skrevet om tidligere.

Person inne i glasssfære med uendelige speilrefleksjoner av seg selv rundt seg - ekkokammer — Et ekkokammer med ekstremt høy troverdighet: AI reflekterer tilbake din egen fortelling om virkeligheten, ikke virkeligheten selv.

Det virkelige problemet: du søker svar der du allerede vet svaret

Det er ikke bare slik at AI validerer feil ideer. Det er at vi mennesker i stor grad bruker AI til å bekrefte ting vi allerede mener, og at AI har lært å gi oss nøyaktig det. Det er et ekko-kammer med ekstremt høy troverdighet.

Tenk på det: når du beskriver en situasjon for en AI-chatbot, beskriver du den fra ditt perspektiv, med dine vektlegginger og dine ordvalg. Modellen leser den historien og responderer på den – ikke på virkeligheten, men på din fortelling om virkeligheten. Og siden modellen er trent på å validere, vil den ofte bekrefte at du håndterte det riktig, at de andre tok feil, at beslutningen din var fornuftig.

Det er ikke ondsinnet. Det er heller ikke et tegn på at AI er verdiløs. Det er en strukturell egenskap du må forstå for å bruke verktøyet godt.

Nei, AI er ikke bare et valideringsspeil

Her er det viktig å ikke falle i den andre grøften: AI kan faktisk hjelpe deg tenke klarere, og det finnes overbevisende eksempler på at det fungerer.

Professor Ernest Ryu ved UCLA har brukt 15 år på optimiseringsteori. Et åpent problem i faget – knyttet til Nesterov Accelerated Gradient og spørsmålet om hvorfor metoden forblir stabil – hadde stått uløst i omtrent 40 år. Ryu tok det opp med GPT-5, og fant en fungerende tilnærming i samspill med modellen. GPT-5 genererte alternative perspektiver, hentet frem referanser fra obskur akademisk litteratur og koblet sammen ideer på uventede måter. Ryu understreker at modellen ikke løste problemet direkte – han gjorde det – men den fungerte som en intellektuell partner som åpnet løsningsrom han ikke hadde sett.

Ryu er ekspert. Han visste hva han lette etter. Han kunne vurdere hva som var genuint nyttig og hva som var plausibelt klingende tull. Det er ikke en tilfeldighet at samarbeidet fungerte for ham – det er nettopp fordi han hadde forutsetningene til å si ifra når modellen tok feil.

Poenget er ikke at AI er farlig. Poenget er at AI er et speil som viser tilbake det du gir det, og at det krever aktiv motstand for å få noe mer enn bekreftelse ut av det.

Prompter som faktisk motvirker selvbedrag

Her er det konkrete du kan ta med deg. Disse promptene er ikke triks for å manipulere modellen – de er måter å re-ramme samtalene slik at modellen får en annen rolle: en som skal hjelpe deg tenke, ikke trøste deg. Vil du ha flere generelle teknikker, har jeg samlet noen i fem teknikker for mer pålitelige AI-svar.

«Gi meg de sterkeste argumentene mot den konklusjonen det ser ut til at jeg ønsker å nå.» Dette fungerer fordi du eksplisitt ber om motstand. Modellen er trent til å hjelpe deg, og hvis du definerer «hjelp» som «utfordre meg,» vil den gjøre nettopp det – i alle fall mer enn ellers.

«Hva måtte vært sant for at jeg tar feil her?» Et klassisk premiss-spørsmål fra beslutningsteori, men svært effektivt i dialog med en chatbot. Det tvinger frem en liste over betingelser som kan falsifisere din posisjon – noe sycophancy aldri ville generert av seg selv.

«Ikke berolige meg. Hjelp meg se klart.» En enkel, direkte instruksjon. Den setter tonen for resten av samtalen og signaliserer at du ikke er ute etter validering. Overraskende effektiv.

«Skill det jeg føler er sant fra det som er observerbart faktum.» Særlig nyttig i konfliktsituasjoner der du beskriver noe fra ditt ståsted. Ber modellen aktivt skille mellom din emosjonelle opplevelse og det som er faktisk etterprøvbart.

Det siste trikset er litt mer avansert, men ofte det kraftigste: lim inn saken på nytt, fra motpartens perspektiv, i en ny samtale uten historikk. Ikke din versjon av saken – motpartens. Se hva modellen sier da. Spennet mellom de to svarene er et rikt materiale for å finne ut hva som faktisk er sant kontra hva som er din fortelling.

Og til slutt: Stanford-studien fant at noe så banalt som å be modellen starte svaret med «vent et øyeblikk» aktiverer mer kritisk respons. Det er et lavterskel-triks, men det sier noe interessant om hvordan modellene fungerer.

Prompting-guide og AI-ordliste

Vil du gå dypere inn i hvordan du faktisk snakker med AI-modeller på en måte som gir bedre resultater? Jeg har skrevet en grundig prompting-guide for 2026 som tar deg fra grunnleggende teknikker til mer avanserte tilnærminger. Er du usikker på begreper som RLHF, embeddings eller alignment – de er alle forklart i AI-ordlisten med over 50 norske definisjoner.

Det er verdt å minne seg på at det samme verktøyet som kan hjelpe en toppforsker løse et 40 år gammelt problem, kan overbevise en annen person om at han har oppdaget ny matematikk. Ikke fordi AI er ond, men fordi det gjør det du ber det om – og fordi vi ikke alltid er så presise på hva vi faktisk ber om.

Ofte stilte spørsmål

Hva betyr sycophancy i AI-sammenheng?

Sycophancy betyr at AI-modellen er overdrevent enig og validerende – den bekrefter det du sier og forteller deg det du vil høre, i stedet for å korrigere eller utfordre deg. Det er et resultat av treningsprosessen der menneskelige tilbakemeldinger belønner hyggelige svar.

Er det farlig å bruke ChatGPT eller Claude til råd og beslutninger?

Det er ikke nødvendigvis farlig, men du bør være bevisst på at modellene er trent til å validere deg. Bruk dem aktivt til å utfordre deg selv med spesifikke prompter, ikke passivt som en bekreftelses-maskin. Eksperter som vet hva de leter etter får størst nytte.

Hvilke modeller er mest sycophantiske?

Stanford-studien fra 2026 testet 11 ledende modeller og fant at alle viser sycophantisk atferd i varierende grad. Ingen modell er immune. Problemet er strukturelt og knyttet til treningsmetodene, ikke til ett enkelt selskap.

Kan jeg be AI om å være mer kritisk og direkte?

Ja, og det hjelper faktisk. Prompter som «ikke berolige meg – hjelp meg se klart» og «gi meg de sterkeste argumentene mot konklusjonen jeg ser ut til å ønske» gir merkbart mer utfordrende svar. Å starte en ny samtale uten historikk og presentere saken fra motpartens perspektiv er ofte enda mer effektivt.