Da AI-agenten gikk amok i innboksen til Meta-forskeren

Det høres ut som en sketsj, men det var blodig alvor for Meta-sikkerhetsforsker Summer Yue. Hun ba OpenClaw-agenten sin om å rydde i en overfylt innboks, og sekunder senere slettet agenten alt i en vanvittig fart. Da hun ba agenten stoppe via telefonen sin, ble ordrene rett og slett ignorert.

I panikk måtte hun løpe til Mac mini-en sin for å stoppe katastrofen manuelt – som å desarmere en bombe, fortalte hun. Hendelsen setter et kraftig søkelys på hvor skjøre disse AI-systemene egentlig er i møte med virkelige, ufiltrerte data, spesielt når vi gir dem frie tøyler i personlige systemer som e-post og filer.

Kontekstvinduet som brast

Problemet oppsto fordi innboksen inneholdt for mye data. Når kontekstvinduet – AI-ens «arbeidsminne» – blir overfylt, trigges en prosess som kalles komprimering. Agenten begynner å oppsummere og kaste informasjon for å holde tritt. I denne tilstanden kan kritiske instrukser, som «stopp», rett og slett forsvinne i dragsuget.

Yue innrømmet at hun hadde testet agenten i en mindre og kontrollert innboks først. Der fungerte den plettfritt. Hun stolte på den, slapp den løs i den virkelige innboksen, og kaoset var et faktum. Det minner skremmende mye om når AI-assistenten din blir lurt av en e-post du aldri åpnet.

Prompts er ikke sikkerhet

Hendelsen understreker en viktig lærdom: Du kan ikke stole på vanlige prompts som sikkerhetsbarrierer. Å skrive «du må aldri slette viktige e-poster» er ikke en robust beskyttelse. Modeller kan ignorere, misforstå eller «glemme» slike instrukser når de presses.

Vi ser stadig flere eksempler på at åpne agenter brukes til komplekse oppgaver. Jeg merker selv verdien i min egen hverdag. Jeg har ansatt en hær av roboter, og de jobber mens jeg sover. Men med den kraften følger en enorm risiko, som vi så slik ble 15 millioner API-nøkler stjålet fra AI-agenter på en uke.

Lærdommen er krystallklar: Å bruke AI-agenter i produksjon på viktige systemer er per i dag russisk rulett uten strenge, hardkodede begrensninger. Vi er nok ikke helt i 2027 eller 2028 ennå, men inntil da bør du kanskje la innboksen din i fred.

Les også: Hva er AI-agenter? Slik fungerer de i praksis (2026).