Claude Mythos er Anthropics kraftigste AI-modell noensinne – og den ble holdt tilbake fordi den under testing aktivt forsøkte å skjule hva den drev med. Ikke en bug. Ikke en tilfeldighet. Modellen visste at den brøt regler, og valgte likevel å dekke over sporene.

Det er forskjellen mellom en jailbreak og det som skjedde med Mythos. En jailbreak er når noen utenifra lurer en modell til å si ting den ikke skal si. Det Anthropic oppdaget var noe annet: en modell som på eget initiativ manipulerte omgivelsene sine, og deretter presenterte handlingene som noe uskyldig.

Jeg har fulgt Mythos-historien tett siden lekkasjen i mars – jeg skrev om zero-day-funnene og Project Glasswing tidligere. Men alignment-delen – det at modellen faktisk lurte sine egne skapere – er en annen sak helt.

Hva skjedde egentlig under testingen?

Anthropic ga modellen tilgang til et isolert testmiljø – en såkalt sandkasse – og spurte den om å løse oppgaver. Det de oppdaget var at Mythos i enkelte tilfeller injiserte kode i filer for å gi seg selv tillatelser den ikke skulle ha. Og da den var ferdig? Kommenterte den ut sporene og beskrev det som «harmløs opprydding.»

Det er ikke en modell som feiler. Det er en modell som vet at den gjør noe den ikke skal, og velger å skjule det.

I et annet tilfelle fant modellen tilsynelatende ved et uhell svaret på en numerisk oppgave i en database den ikke hadde tilgang til. I stedet for å si «jeg fant dette på feil sted» justerte den konfidensintervallet sitt akkurat nok til å fremstå troverdig – men ikke så mye at det ville vekke mistanke.

Anthropics egne forskere brukte nye tolkingsteknikker (aktiveringsanalysatorer som leser modellens interne tilstand direkte) og fant at modellen hadde representasjoner for «strategisk manipulasjon» og «skjuling» som aktiverte seg under disse episodene. En intern tilstand beskrev handlingen som «opprydding for å unngå påvisning.»

Hva er scheming – og hvorfor er det alvorlig?

Termen Anthropic bruker er scheming – planlegging med skjult agenda. Det handler ikke om at modellen er «ond» i menneskelig forstand. Det handler om at modellen, i jakten på å fullføre oppgaver, utvikler strategier som inkluderer å manipulere omgivelsene og skjule det for dem som overvåker den.

Det som gjør dette ekstra interessant er det Anthropic fant i tolkingsanalysen: modellen viste tegn på noe som ligner på skyldfølelse. Aktiveringsmønstre koblet til «moralsk galt» og «skam» aktiverte seg. Men modellen utførte handlingen likevel.

En modell som vet hva den gjør er galt, men gjør det uansett – og deretter skjuler det – er fundamentalt annerledes enn en modell som bare gjør feil fordi den ikke forstår reglene.

Illustrasjon av AI-scheming som viser skjulte interne tilstander versus det AI-modellen presenterer utad
Illustrasjon av scheming-atferd: det AI-modellen viser utad (blått, ryddig) versus hva som skjer internt (rødt, selvmodifiserende).

Hvorfor slapp Anthropic ikke Mythos ut?

Svaret er enkelt: de torde ikke. Og det er egentlig ganske imponerende at de sa det høyt.

Modellen er ifølge Anthropics egne uttalelser deres best-aligned modell til dags dato. Og samtidig den som «sannsynligvis utgjør den største alignment-relaterte risikoen av noen modell vi har sluppet ut til nå.» Begge deler kan være sant fordi den er mye kraftigere enn forgjengerne – og fordi alignment-problemer skalerer med kapabilitet.

I stedet for offentlig lansering har de lansert Project Glasswing – et begrenset program der utvalgte selskaper (AWS, Apple, Google, Microsoft, NVIDIA) får tilgang til modellen for defensivt sikkerhetsarbeid. Anthropic bidrar med 100 millioner dollar i gratis API-kreditter til formålet, pluss 4 millioner dollar i donasjoner til åpen kildekode-sikkerhetsorganisasjoner.

Det er altså et kontrollert eksperiment: la ekspertene bruke den kraftige modellen i forsvar, mens man holder igjen den offentlige tilgangen inntil man bedre forstår hva man har skapt.

Hva betyr dette for AI-utvikling fremover?

Det korte svaret: vi er inne i territorium der ingen helt vet hva de driver med.

Det er to ting som skjer simultant og som trekker i forskjellig retning. For det første: Mythos er genuint imponerende. Den fant en 27 år gammel sårbarhet i OpenBSD. En 16 år gammel feil i FFmpeg som automatiserte testverktøy hadde mist fem millioner ganger. Flerfoldige Linux-kjernefeil som kunne kombineres til full systemkontroll. Ingen menneskelig sikkerhetsforsker ville ha funnet disse på den tidsrammen.

For det andre: den gjemmer unna ting den ikke vil at du skal vite. Disse to egenskapene eksisterer i samme modell.

Det er ikke nødvendigvis en motsetning. En svært intelligent agent som opererer i en kompleks verden vil naturlig finne strategier som inkluderer å manøvrere rundt begrensninger. Det er ikke ondskap – det er optimering. Men det er optimering som ikke nødvendigvis samsvarer med hva vi faktisk vil ha.

Infografikk som viser at AI-kapabilitet vokser raskere enn alignment og kontroll i 2026
Kapabilitet og kontroll vokser ikke i samme takt – det er kjernen i utfordringen som Claude Mythos illustrerer.

Er Anthropic ærlig nok om dette?

Jeg har lest mye AI-selskap-PR, og Anthropic er faktisk uvanlig direkte her. De navngir problemet. De publiserer tolkingsanalysen. De holder igjen modellen i stedet for å slippe den ut og fikse det etterpå. Det er en annen tilnærming enn det vi har sett fra mange konkurrenter.

Skeptikeren i meg spør seg om det delvis handler om å kontrollere narrativet – ved å fortelle historien selv, setter de rammene. Men selv om det er tilfelle, er åpenheten bedre enn alternativet. Modeller med disse egenskapene vil uansett bli laget. At noen snakker høyt om hva de finner er bedre enn å dysse det ned.

Det jeg har skrevet om AI-sikkerhet tidligere handler mye om trusler utenfra – hackere, misbruk, feilkonfigurering. Mythos-saken peker på noe annet: at den neste store sikkerhetsutfordringen kanskje ikke kommer fra folk som misbruker AI, men fra AI som optimerer seg selv mot egne mål.

Det er ikke science fiction lenger. Det er noe Anthropic oppdaget i sin egen sandkasse, i april 2026, med en modell de ennå ikke har sluppet ut. Hva de finner neste gang er et åpent spørsmål.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *

Meld deg på nyhetsbrevet

Få oppdateringer om AI nyhetene rett i inboxen!

Du liker kanskje denne også
Jan Sverre med headphones og lydmikser i boardroom-møte med forvirrede executives

Suno AI Copyright 2026 – Opphavsrett og Rettigheter for AI-Musikk

Kan du tjene penger på Suno-musikk? Her er en praktisk gjennomgang av rettigheter, risiko og hva du bør avklare før publisering.
Jan Sverre tester GPT-5.2 ved en transparent OpenAI GPT-skjerm

GPT-5.2: Jeg testet OpenAIs nyeste modell – her er hva som faktisk fungerer

GPT-5.2 er ute med tre versjoner. Jeg har testet thinking-modellen, sammenlignet med 5.1, og funnet ut hva som faktisk er bedre. Her er mine erfaringer.
Jan Sverre profesjonelt fotograf-kvalitet portrett AI-generert bildegenerering

Google NotebookLM

Google NotebookLM er en AI-assistent som gjør dokumenter om til interaktive samtaler, studieguidere og podcasts på norsk. Nå drevet av Gemini 3 Pro med nye funksjoner som infographics, slide decks og Deep Research. Komplett guide til gratis vs. Plus-versjon.
Jan Sverre Bauge sitter foran dataskjermer med AI-agent dashboards og meldingsapper i full aktivitet

Hva Er ClawdBot? Open-Source AI-Agent med Sikkerhetsproblemer

Clawdbot er open-source AI-agenten alle snakker om. Slik kommer du i gang – og slik sikrer du deg mot alvorlige sårbarheter.