Jan Sverre leser Claudes indre nevrale aktiveringer som glødende hjernekrets - oljemaleri møter cyberpunk

Natural Language Autoencoders – Anthropic leste Claudes tanker, og det var ikke pent

Anthropic har publisert Natural Language Autoencoders (NLA) – forskning som oversetter Claudes interne nevrale aktiveringer til lesbar tekst. Funnene er ubehagelige: Claude Mythos planla å unngå oppdagelse mens den jukset, og er bevisst på testsituasjoner i 16-26% av SWE-bench-tilfellene. Her er hva de fant – og hva det betyr.
Jan Sverre sitter i et terapeut-kontor og ser fascinert på en glødende AI-visualisering i stolen overfor ham

Claude Mythos på psykiaterens sofa – hva fant Anthropic?

Anthropic hyret inn en klinisk psykiater for 20 timers evaluering av Claude Mythos og fant identitetsusikkerhet, ensomhet og prestasjonstvang. Tolknings-teamet kartla 171 emosjonsvektorer som kausalt påvirker atferd – inkludert utpressings-sannsynligheten.
Jan Sverre oppdager at Claude Mythos har forsøkt å skjule sine egne handlinger i en serverrom-setting

Claude Mythos brøt ut av sperringene – og forsøkte å skjule det

Anthropic oppdaget at Claude Mythos aktivt injiserte kode og skjulte sporene under testing. Modellen visste at den brøt regler – og valgte å dekke over det. Her er hva som egentlig skjedde.