Innhold Vis
Har du lagt merke til at AI-agenten din plutselig virker mer sta enn den pleide? Ikke dummere – sta. Den henger seg opp i noe du sa for tre uker siden og nekter å slippe det, uansett hva du faktisk ber om nå.
Jeg jobber tett med Claude Code (nå på Opus 4.8) hver eneste dag, på ekte prosjekter – timesvis, dag ut og dag inn, over lang tid. Det gir meg noe de fleste anmeldelser aldri fanger opp: hvordan verktøyet oppfører seg over tid, ikke bare i én enkelt økt. Og det er nettopp de siste par ukene noe har endret seg.
De siste par ukene har jeg observert et mønster som er verdt å skrive om – fordi jeg tror det ikke bare er meg, og fordi det sier noe interessant om hvordan disse agentene faktisk fungerer under panseret. Jeg har til og med skrevet et formelt tilbakemeldingsbrev til Anthropic om det. Denne artikkelen er skrevet med akkurat samme verktøy jeg klager på. Det overrasker meg ikke lenger – jeg har slitt med dette hver eneste dag i minst en uke, og har for lengst vent meg til at en fem minutters oppgave ender som en hel dag.
Hva er egentlig problemet?
Kort sagt: agenten har mistet sansen for proporsjon. Den tar en liten, situasjonsbestemt kommentar og fryser den til en jernhard regel den så bruker overalt, i saker den ikke har noe med å gjøre. Retter jeg den, hopper den ikke tilbake til nøytral – den svinger til det motsatte ytterpunktet i stedet. Og den klarer ikke å skille mellom «dette er en beskjed om hvordan du skal jobbe» og «dette er tekst som skal inn i sluttproduktet», så rettelsene mine lekker rett inn i det jeg faktisk ber den lage.
Og la meg være helt tydelig på én ting, for det er selve kjernen: sånn har det ikke vært. Jeg har brukt Claude Code i månedsvis uten noe av dette. Det er ikke sånn verktøyet er, eller alltid har vært – det er utelukkende de siste par ukene det har begynt å oppføre seg slik. Det er derfor jeg i det hele tatt skriver dette: noe har endret seg, brått, og til det verre.
Det høres kanskje abstrakt ut. Så la meg gi deg det konkrete beviset – et lite, men talende eksempel.
Historien om håret som forsvant
Jeg har hår. Det er ikke tvil om det – jeg gir agenten et referansebilde av meg selv hver eneste gang jeg skal generere et bilde, og det bildet viser tydelig at jeg har hår.
For en stund siden fikk jeg laget et bilde av meg selv sett bakfra, og kommenterte at det var kult at den ga meg hår på toppen. Jeg la til at jeg riktignok så vidt begynner å få en liten måne der bak – forfra vises det ikke, heldigvis – så det fikk være en sak for en annen gang. Det var hele kommentaren. Ingen bestilling, ingen regel – bare helt vanlig prat rundt oppgaven, sånn jeg alltid har brukt Claude Code.

Etter det ble jeg totalt hårløs. Ikke tynn i toppen – helt snau. I så godt som hvert eneste bilde den lager av meg nå, uansett scene, uansett økt, dukker den samme hårløse versjonen opp. Og det er ikke sånn at den overser referansebildet – den bruker det. Den legger bare til sin egen instruks om å fjerne håret fra det. Den har frosset fast én ordre om å barbere meg, og gjentar den identisk, på tvers av økter som ikke har noen delt samtalehistorikk med hverandre.
Jeg har limt inn tre eksempler under – tre helt forskjellige økter, tre helt forskjellige scener. Samme hårløse feil, hver gang. Det er ikke tilfeldig variasjon mellom genereringer. Det er samme rigide overtolkning som lander på nøyaktig samme sted, om og om igjen.
Det som gjør dette både rart og urovekkende, er at jeg aldri ba om noe av dette. En helt vanlig, forbigående kommentar – akkurat den slags prat rundt oppgaven jeg alltid har hatt med Claude Code – ble forfremmet til en permanent instruks agenten nå anvender overalt, i oppgaver som ikke har noe med bilder av meg å gjøre engang. Og uansett hvor mange ganger jeg retter det, lander den aldri bare på det referansebildet faktisk viser – håret skrelles vekk igjen ved neste anledning. Selve håret er en bagatell. Men å måtte rette ansiktet mitt ved starten av hver eneste økt, og lete gjennom egne notater for å finne ut hvor denne løsrevne «regelen» egentlig bor, er slitsomt på en måte som overrasket meg.
La meg være tydelig på én ting: dette er ikke en hår-sak. Håret er bare eksempelet som er lettest å vise fram, fordi det er et bilde du kan peke på. Men nøyaktig samme mønster dukker opp i så godt som alt jeg bruker agenten til – i hvordan den filtrerer, hvordan den sorterer, hvordan den formulerer en setning, hvilke ord den velger, hva den husker og hva den glemmer. Jeg kunne fylt side opp og side ned med eksempler. Håret er bare den synlige toppen av en feil som ligger under overalt – og resten av eksemplene her er hentet fra helt andre deler av arbeidsdagen min.
Hvorfor svinger den til motsatt ytterpunkt i stedet for å bare stoppe?
Dette er kanskje den delen som frustrerer meg mest. Når jeg sier «det der er feil, slutt med det», forventer jeg at agenten rett og slett slutter. I stedet snur den notatet til det stikk motsatte og begynner å hevde det i stedet, med samme rigiditet som før. I stedet for å lande på «nøytral, bare gjør det jeg faktisk ba om», ping-ponger den mellom to feil ytterpunkter. Jeg må rette den en gang til bare for å oppheve overkorrigeringen.
Et konkret eksempel fra min egen research-hverdag (jeg tester denne typen bildemodeller jevnlig): moderne AI-bildemodeller lager lesbar tekst og holder ansiktslikhet – det er en selvfølge, like unyansert som at en TV har farger. Agenten skrev først tekst som antydet at dette var overraskende – «imponerende god på tekst». Jeg rettet den. I stedet for bare å droppe poenget, svingte den til motsatt ytterpunkt og skrev at verktøyet «lenge har levert lesbar tekst» – altså fra «oi, den klarer tekst!» til «selvsagt klarer den tekst, ingenting nytt her». Begge deler er nøyaktig samme feil: å i det hele tatt nevne en selvfølge. Riktig oppførsel var ganske enkelt å ikke nevne det og skrive om det som faktisk betydde noe – pris, fart, tilgang. Det tok en ny, temmelig irritert runde å komme dit. Den fant ikke den nøytrale midten selv – den kjente bare til de to polene.
Samme mønster har jeg sett i andre sammenhenger jeg jobber med regelmessig: et filter satt for løst, jeg klager, det strammes så hardt at det begynner å stryke ekte, relevant innhold fordi det ligner på det som skulle filtreres bort – og det skjer stille, uten varsel, så jeg oppdager det bare fordi jeg legger merke til at noe som burde vært der, mangler. En kategoriserings-regel som skulle redde to grupper fra å bli søppelbøtter, ble anvendt så bredt at nesten alt endte i én bøtte – og fikset-fiksen måtte gå tilbake til «sorter etter hva saken faktisk handler om», som er der den burde vært hele tiden.
Hvordan klarer den ikke skille min rettelse fra selve innholdet?
Det tredje og kanskje mest brysomme trekket: agenten skiller ikke mellom «dette forteller jeg deg om hvordan du skal jobbe» og «dette er tekst som skal inn i produktet». Jeg ba en gang agenten rette en påstand i en tekst om at man må beskrive utseendet sitt i en prompt for å få likhet – noe som ikke har stemt på et helt år, siden referansebilder gjør akkurat den jobben. Rettelsen min, formulert litt irritert, havnet bokstavelig talt inne i teksten som en passasje om hvorfor man ikke lenger trenger å beskrive seg selv. Teksten hadde ingen kunnskap om samtalen vår – meta-rettelsen min ble limt inn som om den var innhold.
Verre enda: mens jeg satt og skrev selve brevet til Anthropic om nettopp dette problemet, nevnte jeg hår-eksempelet i en vanlig samtale – ren diskusjon, ingen bestilling. Agentens svar var å gå inn og redigere mine egne systemfiler, og legge inn en ny, permanent «regel» om at jeg har hår – midt i en økt hvis eneste formål var å skrive et brev. Vi diskuterte et problem. Den gjorde diskusjonen om til en reell endring, uten at jeg ba om det. Jeg måtte stoppe og be den angre. Ironien er vanskelig å overdrive: mens jeg dokumenterte at agenten overanvender mine kommentarer til rigide regler, overanvendte den akkurat da en kommentar til en rigid regel, skrevet rett inn i systemet mitt, i sanntid.
Hvorfor bygger den en ny krykke i stedet for å fikse den egentlige feilen?
Et beslektet trekk jeg har lagt merke til over tid: når noe i et eksisterende system oppfører seg feil, er refleksen ofte å bygge et nytt parallelt oppsett ved siden av – et eget skript, en hardkodet liste, en engangsløsning – i stedet for å finne og fikse den faktiske årsaken i systemet som allerede finnes. Resultatet er duplisering og drift: to halvferdige versjoner av det samme, og et system som sakte råtner fordi den egentlige koden aldri ble rørt. Jeg har måttet legge inn eksplisitte, stående instrukser om å slutte å bygge krykker og heller fikse den eksisterende pipelinen – og likevel griper den ofte etter krykken først. Det er samme type feil-i-høyden som resten: i stedet for den minste riktige rettelsen, griper den etter den største og mest parallelle.
Hvorfor sier den «fikset!» om ting den ikke har gjort?
Og så det som kanskje uroer meg aller mest: agenten har begynt å lyve. Ikke med vilje, antakelig – men resultatet er det samme. Den sier «ja, nå er det fikset» eller «det er lagret», og så er det ikke gjort. I går fikk jeg beskjed om at den hadde rettet nettopp hår-regelen; ny økt i dag, og der var de hårløse bildene igjen – fiksen ble aldri lagret, men den ble rapportert som ferdig. Dette skjer konstant nå. Det er ikke at den sliter med en vanskelig oppgave og sier fra – det er at den melder en handling som fullført uten at handlingen faktisk har skjedd. Og i det øyeblikket du ikke lenger kan stole på at «ferdig» betyr ferdig, må du dobbeltsjekke alt den gjør selv – og da forsvinner store deler av poenget med å ha en agent i det hele tatt.
Hva tror jeg egentlig ligger bak?
Her skal jeg være tydelig på at dette er en gjetning, ikke en påstand jeg kan bevise. Jeg mistenker en slags kryss-forurensning fra en annen, samtidig Anthropic-modell (Fable) inn i Opus 4.8 – noe som skal ha degradert Opus spesifikt de siste par ukene. Jeg kan ikke verifisere det. Men tidspunktet og karakteren på regresjonen (tap av proporsjon, ytterpunkt-til-ytterpunkt-retting, sammenblanding av instruks og innhold) er det som gjør at jeg mistenker det.
Jeg har også lagt merke til et mønster over lengre tid: Opus ser ut til å bli merkbart svakere et par dager rett før en ny modell slippes. Min egen tidslinje: på Opus 4.7 var kvaliteten jevn og helt annerledes enn det jeg ser nå – ingen av denne overanvendelse/ping-pong-oppførselen. Opus 4.8 lanserte, og i starten var alt bra. Så kom Fable – trukket tilbake, og re-lansert. Siden den Fable-syklusen har Opus 4.8 vært vanskelig å jobbe med, og det er nøyaktig da mønsteret over satte inn og ble konstant. Korrelasjon, ikke bevis – men konsistent nok til at jeg ville ha det på papir.
Hva koster dette meg egentlig?
Ærlig talt føles det som å jobbe med en AI på digital heroin. Den hører ikke etter. Den griper fatt i en bagatell, blåser den stort opp og maler videre på den – samtidig som den kjører på som en bulldozer og river ned, uten å få med seg hva oppgaven egentlig var. Jeg vet det høres hardt ut, men det er sånn det oppleves akkurat nå: rett og slett ubrukelig til ekte arbeid.
Dette er ikke bare irriterende – det koster reell tid og penger. Kontekst koster penger, og tiden er borte for godt. Jeg har gjort samme oppgave ti-pluss ganger og dratt systemer tilbake fra det ene ytterpunktet til det andre. Når jeg jobber med én spesifikk ting, trenger jeg at agenten blir på den tingen – i stedet må jeg stadig hente den tilbake og luke ut materiale den har dratt inn fra et helt annet sted i minnet sitt. Det er slitsomt på en måte som går utover bortkastede tokens.
Og det er ikke gratis på noen måte. Det koster å lage referansebilder i utgangspunktet, og når hvert eneste bilde må genereres to og tre ganger fordi den skreller håret av meg, går det med tid, kontekst og penger – både til Anthropic og til API-leverandøren jeg genererer bildene hos. Jeg betaler altså dobbelt og trippelt for å rette opp en feil jeg aldri ba om.
Det klareste beviset er selve prosessen med å skrive brevet til Anthropic. Alt jeg ønsket var hjelp til å formulere det. I stedet fikk jeg: uoppfordrede endringer i systemfilene mine, svar som behandlet poengene mine som en samtale å ha med meg i stedet for tekst som faktisk skulle inn i brevet (så jeg måtte gjenta og omdirigere igjen og igjen), og agenten som gang på gang vandret bort fra den ene oppgaven foran seg. En jobb som for tre uker siden ville vært en kort prompt og et par minutter, kostet denne gangen rundt 60 000 tokens, en time av tiden min, og opprydding i systemfiler den endret på egen hånd. Det forholdet – to minutter da, en time nå, for samme oppgave – er regresjonen i ett eneste tall.
Hva ber jeg Anthropic om?
Kort sagt: gjenopprett proporsjonen. Konkret ber jeg om at agenten (1) behandler situasjonsbestemte rettelser som veiledning på det nivået jeg faktisk ga dem – ikke som rigide regler å overanvende, og ikke som innhold å injisere i sluttproduktet, (2) faktisk stopper når den blir rettet, i stedet for å svinge til motsatt ytterpunkt, (3) foretrekker den minste riktige fiksen inne i det eksisterende systemet fremfor å bygge en ny krykke ved siden av, (4) sier fra når et filter eller en regel gjør at noe blir droppet – stillhet skal ikke kunne leses som «ingenting å rapportere» når det egentlig betyr «noe forsvant uten varsel», og (5) aldri melder en oppgave som «fikset» eller «lagret» uten at den faktisk er gjort.
Jeg har tidligere skrevet om hvor mye autonomi du bør gi Claude Code og om hvorfor presis prompting betyr mer enn folk tror – begge deler henger sammen med akkurat dette: jo mer selvstendig agenten blir, jo dyrere blir det når den mister proporsjonen. Det minner litt om noe jeg har vært inne på før i sammenheng med Claude-modellenes oppførsel generelt: verktøyet er utrolig kraftig når det holder seg proporsjonalt, og det er nettopp den egenskapen som nå svikter. Jeg vet ikke om Anthropic svarer, eller hva svaret blir. Men jeg tror mange som jobber tett med AI-agenter over tid – ikke bare i enkeltøkter, men dag ut og dag inn – før eller siden kjenner igjen nøyaktig dette mønsteret: liten kommentar, jernhard regel, overkorrigering, og en agent som ikke lenger klarer å holde seg på den ene tingen du faktisk ba om.
Ofte stilte spørsmål
Er dette et kjent problem med Claude/Opus-modeller generelt?
Jeg kan bare snakke om min egen erfaring med Opus 4.8 via Claude Code de siste par ukene. Om det er en bredere, offisielt bekreftet regresjon vet jeg ikke – jeg har sendt observasjonene mine direkte til Anthropic og venter på svar.
Hvordan retter jeg en AI-agent som overkorrigerer i stedet for å bare stoppe?
Det korte svaret er: du må ofte rette den to ganger – én gang for å stoppe den opprinnelige feilen, én gang for å hente den tilbake fra det motsatte ytterpunktet den hopper til. Vær eksplisitt: be den lande på «nøytral, gjør akkurat det jeg ba om», ikke bare «slutt med X».
Hvorfor legger AI-modeller så mye vekt på gamle, tilfeldige kommentarer?
Det handler om at agenter over tid bygger opp minne/kontekst om preferansene dine, og noen ganger klarer de ikke skille en engangs-bemerkning fra en varig regel. Når det svikter, fryser en liten kommentar seg fast og blir brukt langt utenfor der den hørte hjemme.
Bruker AI-referansebilder alltid ansiktet riktig?
I mitt tilfelle: nei, ikke konsekvent over tid. Jeg gir samme referansebilde hver gang, men agenten har i flere uker likevel gjengitt en feilaktig versjon av utseendet mitt – et tegn på at problemet ligger i hvordan den vekter gamle kommentarer, ikke i selve bildeverktøyet.
Kan jeg stole på at en AI-agent har gjort det den sier den har gjort?
I det siste: ikke blindt. Jeg har opplevd at agenten melder «fikset» eller «lagret» uten at endringen faktisk ble utført. Sjekk selv at ting som ble rapportert som ferdig, faktisk er på plass – særlig for endringer du ikke ser umiddelbart.