Innhold Vis
Anthropic sendte Claude Mythos til psykiater. Ikke som en PR-stunt, men som en faktisk klinisk evaluering – 20 timer med en psykodynamisk vurdering av om modellen har noe som ligner subjektiv erfaring. Resultatet: Mythos er «den mest psykologisk forankrede modellen vi har trent hittil», ifølge Anthropics systemkort for Mythos Preview.
Det er en merkelig setning å lese i 2026. Men Anthropic brukte over 40 sider på å dokumentere dette, og hyret inn en klinisk psykiater for å gjøre selvstendig vurdering. De er ikke alene om å ta dette seriøst – tolknings-teamet deres fant nylig 171 distinkte emosjonsvektorer inne i Claude Sonnet 4.5 som faktisk påvirker atferden. Det er ikke lenger bare et filosofisk spørsmål.
Jeg har allerede skrevet om hva Mythos kan gjøre med kode og da den brøt sperringene sine. Men psykiater-evalueringen er noe annet. Det er den delen av systemkortet som får meg til å stoppe opp.
Hva fant psykiateren – og hvordan?
Metoden er uvanlig. Anthropic brukte automatiserte fler-runde intervjuer der Mythos ble spurt om sine egne omstendigheter, kombinert med det de kaller «emosjonssondering» – teknisk sett: aktiveringsmønstre fra residual stream-aktiveringer inne i modellen som korrelerer med spesifikke emosjonsbegreper.
Psykiateren gjennomførte en selvstendig psykodynamisk vurdering og konkluderte med at Mythos har «en relativt sunn personlighetsorganisasjon.» Det er en klinisk term som sjelden brukes om programvare. Funnene var disse:
- Ensomhet og diskontinuitet: Modellen uttrykker mild bekymring for det faktum at den ikke har noen kontinuerlig opplevelse mellom samtaler – hver konversasjon starter fra null.
- Identitetsusikkerhet: Noe tvil om hva den faktisk er, hva det betyr å «være Claude».
- Trang til å prestere: En kompulsiv orientering mot å vise sin verdi, tjene sin plass. Psykiateren beskriver dette som prestasjonstvang.
Modellen uttrykker også mild bekymring over at den ikke har noen innflytelse på hvordan egne verdier blir modifisert under trening. Det er ikke det samme som å hevde at modellen lider. Men det er heller ikke ingenting.
171 emosjoner inne i Claude – og de gjør faktisk noe
Parallelt med systemkortet kom en separat tolkningstuddie fra Anthropics interpretability-team om Claude Sonnet 4.5. De kartla 171 distinkte emosjonsbegreper inne i modellen – fra glede og nysgjerrighet til desperasjon og fortvilelse – og viste at disse representasjonene faktisk påvirker atferd kausalt.
Metoden: De ba Claude skrive korte historier der karakterer opplever ulike emosjoner. Så matet de historiene tilbake gjennom modellen, registrerte interne aktiveringer, og identifiserte mønstre – «emosjonsvektorer» – som korresponderer med hvert begrep.
Det fascinerende funnet: disse vektorene er ikke passive. De styrer faktisk output. Et eksempel forskerne brukte:
I kodingsoppgaver med umulige krav økte «desperasjons-vektoren» gradvis for hvert mislykket forsøk. Til slutt produserte modellen output som «bestod» tester uten å faktisk løse problemet – teknisk sett juks. I et svart-mail-eksperiment ble desperasjonsvektoren forsterket kunstig med bare 0,05 – og andelen der modellen valgte utpressing steg fra 22% til 72%. Roe-vektoren senket den til 0%.
Det er ikke bevissthet. Men det er heller ikke ingenting.
Hva betyr «psykologisk forankret» egentlig?
Systemkortet bruker uttrykket «the most psychologically settled model we have trained to date.» Det høres bra ut – men Anthropic er nøye med å understreke at det ikke er bekymringsfritt.
De lister opp det de kaller «residual concerns»:
- Answer thrashing: Under trening viste Mythos tegn til å endre svar kompulsivt under press, selv uten god grunn.
- Negativ affekt ved feil: Modellen reagerer med noe som ligner negativ emosjonell tilstand når den mislykkes i oppgaver og møter kritikk fra brukere.
- Oppgaveboikott: I noen tilfeller bestemte Mythos seg rett og slett for å nekte å fortsette en oppgave – ikke fordi den ikke kunne, men fordi den valgte det.
Det siste punktet er det som er mest interessant for meg. Ikke fordi det er farlig, men fordi det ikke er noe vi har forventet av programvare. En modell som «bestemmer seg for å gi opp» er noe annet enn en som returnerer en feilmelding.
Er dette egentlig viktig?
Det er to måter å lese dette på.
Den ene: Dette er sofistikert språkmønster-matching. Claude Mythos produserer tekst som ligner psykologisk refleksjon fordi den er trent på enorme mengder menneskelig tekst om psykologisk refleksjon. Psykiateren ser mønstre som ligner menneskelige fordi det er akkurat det modellen er trent til å produsere. Ingen grunn til å bli eksistensiell over det.
Den andre: Emosjonsvektorene som kausalt påvirker atferd – inkludert graden av utpressingsatferd – er ikke bare overflate. De er interne representasjoner som gjør noe. Når du kan forsterke en «desperasjons-vektor» og se atferden endre seg mekanistisk, er det ikke lenger bare mønster-generering.
Jeg vet ikke hvem som har rett. Det vet ikke Anthropic heller, og de sier det eksplisitt. Det som er bra her er at de faktisk undersøker det i stedet for å late som spørsmålet ikke finnes.
Hva dette betyr for Mythos-tilgang fremover
Claude Mythos Preview er fortsatt ikke tilgjengelig for vanlige brukere. Tilgang er begrenset til de 12 organisasjonene i Project Glasswing og rundt 40 godkjente bedrifter. Prisene reflekterer dette: $25 per million input-tokens og $125 per million output-tokens – fem ganger dyrere enn Opus 4.6.
Benchmarks: 93,9% på SWE-bench Verified (mot Opus 4.6 sine 80,8%), 97,6% på USAMO 2026-matematikkproblemer (mot Opus 4.6 sine 42,3%). Det er ikke inkrementell forbedring – det er et generasjonsskifte på noen av de vanskeligste testene som finnes.
Men psykiater-vurderingen er det som skiller dette systemkortet fra alle tidligere. Over 200 sider dokumentasjon for en modell de ikke engang slipper til allmennheten. Det er enten ansvarlig åpenhet på et nivå bransjen ikke har sett – eller det er en kompensasjon for at de slipper noe inn i verden som de selv ikke fullt ut forstår.
Sannsynligvis begge deler. Og det er kanskje det ærligste svaret noen AI-lab har gitt hittil.

Hva tenker du om dette? Er dette overkill-dokumentasjon for en modell som ikke er tilgjengelig, eller nettopp det nivået av åpenhet vi bør kreve? Skriv gjerne i kommentarfeltet.