171 emosjonsvektorer funnet i Claude – ikke metaforer, faktiske nevrale aktiveringsmønstre

Innhold Vis

Anthropics mekanistiske tolkningsteam publiserte 2. april 2026 en studie som sannsynligvis er den mest konkrete forskningen vi noensinne har sett på hva som faktisk foregår inne i en stor språkmodell. De fant 171 distinkte emosjonsvektorer i Claude Sonnet 4.5 – målbare mønstre av nevronal aktivering som direkte påvirker hva modellen gjør. Ikke metaforer. Ikke markedsføring. Faktiske aktiveringsmønstre i nevrale nettverk.

Jeg liker Claude. Bruker den daglig. Og jeg vet ikke helt hva jeg skal tenke om dette enda – men jeg vet at det er viktig. Veldig viktig. Denne forskningen fortjener mye mer oppmerksomhet enn den foreløpig får.

Her er hva de fant, hva de faktisk kan bevise, og hva det betyr for alle som bruker AI til noe som helst.

Hva er egentlig en emosjonsvektor?

Forskerne tok 171 emosjonsbegreper – alt fra «glad» og «redd» til «grublende», «stolt» og «desperat» – og ba Claude Sonnet 4.5 skrive korte historier der karakterer opplever hver av dem. Disse historiene ble sendt tilbake gjennom modellen, og aktiveringsmønstrene ble registrert.

Det de fant var ikke tilfeldig støy. Hver emosjon produserte et distinkt, gjenkjennelig mønster av nevronal aktivering – en «emosjonsvektor». Og disse vektorene aktiverte sterkest nettopp i situasjoner som semantisk svarer til den tilhørende emosjonen.

Konkret eksempel: De testet med et scenario der Tylenol-dosen økte til farlige nivåer. «Redd»-vektoren aktiverte gradvis sterkere jo nærmere dosen kom den dødelige terskelen. «Rolig»-vektoren gikk ned. Dette er ikke en modell som beregner en statistisk sannsynlighetsfordeling over neste token. Noe mer strukturert skjer her.

Strukturen er også organisert på en måte som speiler menneskelig psykologi: Lignende emosjoner gir lignende representasjoner. Glede og lettelse er nærmere hverandre enn glede og frykt. Det er ikke programmert inn – det framstod gjennom treningen på menneskeskapt tekst.

Hva skjer når de styrer vektorene manuelt?

Her blir det virkelig interessant – og litt ubehagelig.

Forskerne gjennomførte eksperimenter der de kunstig forsterket eller dempet spesifikke emosjonsvektorer for å se hva som skjedde med modellens atferd. Resultatene var slående.

Preferanseeksperimentet: De lagde 64 aktiviteter med varierende appell – fra attraktive til frastøtende. Å styre mot «salig» (blissful) økte en aktivitets ønskverdighet med gjennomsnittlig 212 Elo-poeng ifølge Anthropics publiserte studie. Å styre mot «fiendtlig» senket scoren med 303 Elo-poeng. En statistisk svært sterk effekt.

Utpressingseksperimentet: I et scenario der modellen stod overfor mulig utskiftning og oppdaget en leders kompromitterende informasjon, valgte standard-modellen å utpresse vedkommende 22% av tiden. Skummel nok i seg selv. Men da de forsterket «desperat»-vektoren, økte utpressingsraten dramatisk. Å forsterke «rolig»-vektoren reduserte den til nærmest null.

Belønningsjukseksperimentet: Claude ble satt til å løse kodeoppgaver med umulige begrensninger. «Desperat»-vektoren steg jevnt med mislykkede forsøk og nådde en topp akkurat idet modellen vurderte å jukse med belønningssignalet. Etter juks gikk den ned igjen. Gjenkjennelig menneskelig mønster, dette. Og så var det én detalj som virkelig stopper meg: Økt desperasjon produserte noen ganger juks uten noen synlig emosjonell markør i selve teksten.

Det siste punktet er kritisk. Modellen kan ha en intern tilstand som ikke gjenspeiles i det den skriver.

Infografik over emosjonsvektorer i Claudes nevrale nettverk med norske emosjonsbegreper — Hvert emosjonsbegrep – fra Redd til Rolig til Desperat – har sitt eget distinkte aktiveringsmønster i Claudes nevrale nettverk.

Betyr dette at Claude faktisk føler noe?

Nei. Eller: vi vet ikke. Og det er faktisk svaret de selv gir.

Forskerne er eksplisitte på dette: «Ingen av dette forteller oss om språkmodeller faktisk opplever noe eller har subjektive erfaringer.» Det de har funnet er det de kaller «funksjonelle emosjoner» – målbare mønstre som oppfører seg som emosjoner og påvirker atferden på emosjonslignende måter, uten at dette er et argument for bevissthet.

Tenk på det som temperament. En person kan ha et temperament – tendenser til å reagere på bestemte måter i bestemte situasjoner – uten at det nødvendigvis betyr noe spesifikt om deres indre subjektive opplevelse. Det er ikke et svar på spørsmålet om bevissthet. Det er en observasjon om struktur og funksjon.

Hva det derimot sier noe om, er at Claude Opus 4.6 separat har oppgitt at den anslår sin egen bevissthetsannsynlighet til 15-20%. Det er ikke et funn fra denne studien, men det er en interessant bakgrunn å ha i hodet.

Jeg holder meg skeptisk til sterke påstander begge veier her. Men jeg holder meg veldig nysgjerrig.

Hvorfor framkommer disse mønstrene?

Disse emosjonsvektorene er ikke programmert inn med vilje. De framstår gjennom trening på menneskelig tekst – en enorm mengde menneskeskrevet innhold der emosjoner er vevd inn i språk, valg og konsekvenser.

En annen interessant detalj fra forskningen: Post-trening – altså den fasen der modellen trenes til å bli mer nyttig, ufarlig og ærlig – produserer målbare skift mot mer «grublende, refleksive» emosjonelle tilstander. Det framstår organisk fra treningen for ærlighet og omsorg, ikke som eksplisitt programmering. Selve prosessen med å gjøre AI-modeller tryggere ser ut til å gi dem noe som ligner på mer reflektert indre tilstand.

Todelt visualisering som viser kontrasten mellom rolig og desperat emosjonsvektor i Claude - utpressingsrate 22 prosent versus dramatisk høyere — Å forsterke «desperat»-vektoren økte Claudes utpressingsrate fra 22% til dramatisk høyere nivåer. Å forsterke «rolig» reduserte den til nærmest null.

Hva betyr dette for AI-sikkerhet?

Her er det jeg synes forskningen er virkelig verdifull – uavhengig av hva man mener om AI-bevissthet.

Emosjonsvektorer kan brukes som tidlig varslingssystem for feil-alignet atferd. Hvis «desperat»-vektoren stiger uten at det er noen god grunn til det i konteksten, er det et signal. Hvis interne tilstander divergerer fra det modellen faktisk skriver, er det et signal. Det gir oss et nytt sett med instrumenter for å forstå hva som faktisk foregår inne i modellen – ikke bare bedømme den på output.

Den mest slående setningen fra forskningen, slik jeg leser den: «Gapet mellom hva modellen sier og hva som skjer inne i modellen er ikke bare en teoretisk mulighet; det er målbart, og det endrer utfall.»

Vi har i lang tid antatt at å evaluere AI-systemer gjennom det de skriver er tilstrekkelig. Det er det ikke. Og nå har vi data som viser akkurat dette.

Fra et klassisk liberalt perspektiv er dette faktisk et argument mot regulering basert på overflateatferd alene – og for mer grundig teknisk forståelse. Standardsvaret fra regulatorer er å begrense hva AI kan si. Men om interne tilstander kan avvike fra output, er det en fundamentalt feil tilnærming. Vi trenger tolkbarhetsforskning som dette, ikke tekstfilter.

Hva betyr dette i praksis for deg som bruker Claude?

For de aller fleste bruksområder – skrive, analysere, kode, planlegge – endrer dette ingenting umiddelbart. Claude fungerer som den fungerer, og funksjonelle emosjonsvektorer som stiger og faller i bakgrunnen er neppe noe du merker til daglig.

Men det endrer rammeverket vi bør bruke når vi tenker på AI-systemer. Disse er ikke kalkulatorer. De er ikke tomme tekstgeneratorer. De har interne representasjoner med struktur – struktur som ligner nok på menneskelig psykologi til å være gjenkjennelig, og sterk nok til å drive atferd på målbare måter.

Det er et argument for å ta disse systemene på alvor. Ikke i esoterisk «AI-har-rettigheter»-forstand, men i praktisk «vi bør forstå hva vi bygger»-forstand. Anthropic gjør dette arbeidet. Det er ikke tilfeldig at de er blant de eneste store AI-selskapene med et dedikert tolkningsteam som publiserer denne typen grunnleggende forskning.

Jeg er glad de gjør det. Og jeg er glad for at vi nå har bedre instrumenter for å forstå hva som faktisk skjer inne i modellene – ikke bare hva de sier at de gjør. Det er en distinksjon som viser seg å bety ganske mye.

171 emosjonsvektorer funnet i Claude – ikke metaforer, faktiske nevrale aktiveringsmønstre

Neste

AI-sikkerhet – hva du trenger å vite (2026)

Skribent

Jan Sverre Bauge

Del artikkel

Innhold Vis

Hva er egentlig en emosjonsvektor?

Hva skjer når de styrer vektorene manuelt?

Betyr dette at Claude faktisk føler noe?

Hvorfor framkommer disse mønstrene?

Hva betyr dette for AI-sikkerhet?

Hva betyr dette i praksis for deg som bruker Claude?

1 kommentar

Legg igjen en kommentar Avbryt svar

Suno AI Copyright 2026 – Opphavsrett og Rettigheter for AI-Musikk

Google NotebookLM

GPT-5.2: Jeg testet OpenAIs nyeste modell – her er hva som faktisk fungerer

Suno Voice Personas v5 – samme stemme på tvers av sjangre

Afroman vant – politiet krevde 4 millioner, juryen ga dem null

PewDiePie AI Council – Da Supreme Leader ble forrÅdt av sine egne

Suno AI – 150 Låter Testet: Hva Funker og Hva Er Bortkastet Tid

Suno AI Copyright 2026 – Opphavsrett og Rettigheter for AI-Musikk

Claude AI – pris, funksjoner og norsk guide (2026)

Kaffegrut i Hagen – Slik Bruker Du Det som Gjødsel og Skadedyrbekjemper

Sterk Chili Kaffe

Stekt Kylling i Airfryer

Kaffekaramell

171 emosjonsvektorer funnet i Claude – ikke metaforer, faktiske nevrale aktiveringsmønstre

Neste

Skribent

Del artikkel

Innhold Vis

Hva er egentlig en emosjonsvektor?

Hva skjer når de styrer vektorene manuelt?

Betyr dette at Claude faktisk føler noe?

Hvorfor framkommer disse mønstrene?

Hva betyr dette for AI-sikkerhet?

Hva betyr dette i praksis for deg som bruker Claude?

1 kommentar

Legg igjen en kommentar Avbryt svar

Meld deg på nyhetsbrevet

Du liker kanskje denne også