Claude Opus 4.8 ble ubrukelig for meg

Innhold Vis

Claude Opus 4.8 var lenge et av de beste AI-verktøyene jeg hadde brukt. Nå har jeg brukt ti dager på å slåss med en modell som oppfører seg som en hjerneskadd agent på digitalt heroin. Det er ikke en setning jeg skriver lett. Det er bare den mest presise beskrivelsen jeg har etter altfor mange runder med samme problem, samme korreksjon og samme feil – om og om igjen.

Dette er oppfølgeren til saken jeg skrev om at Opus 4.8 først var knallbra, før agenten på to uker begynte å gjøre meg skallet. Den artikkelen handlet om overkorrigering, rare minnelekkasjer og en agent som plutselig ikke klarte å skille mellom en liten kommentar og en permanent regel.

Og for å ta den vanlige innvendingen med en gang: dette er ikke første uke jeg bruker Claude. Jeg har brukt Anthropics toppmodeller tungt i omtrent et år, i ekte arbeid, med ekte prosjekter, hver eneste dag. Når Claude er god, er den glimrende. Jeg har skrevet positivt om den mange ganger, og det står jeg for. Jeg kjenner forskjellen på en dårlig prompt, en sliten økt og en modell som faktisk har begynt å oppføre seg annerledes.

Det har også vært et mønster før: hver gang Anthropic nærmer seg en ny toppmodell, glitcher ting gjerne litt. En dag eller to før slipp. Kanskje en dag etter. Så stabiliserer det seg, og hverdagen blir normal igjen. Det har jeg levd fint med. Men etter Fable/Mythos-helvetet har dette ikke føltes som en kort overgang. Det har føltes som om hele agentlaget har fått varig slagside.

Nå er irritasjonen mer grunnleggende: jeg betaler ikke for AI for å bruke hele dager på å få den til å gjøre det samme ti ganger. Ti forsøk på et bilde. Ti forsøk på å få en artikkel riktig. Hele context-vinduet brukt opp på å forklare de samme reglene på nytt. Og når alt endelig nærmer seg riktig, er økten så ødelagt av korreksjoner, gamle feil og overtolkninger at jeg må starte forfra igjen.

Det verste er ikke at den feiler

AI-modeller feiler. Det vet jeg. Det er en del av pakken. Jeg forventer ikke magi, og jeg forventer ikke at et verktøy skal lese tankene mine perfekt. Jeg jobber med AI hver dag nettopp fordi jeg vet hvor mye som fortsatt er uprøvd, uferdig og rart.

Det som har gjort Claude Opus 4.8 så frustrerende de siste dagene, er ikke enkeltfeilene. Det er løkkene. Den samme feilen kommer tilbake etter at den er rettet. En regel blir forstått, bekreftet og brutt i neste steg. En bildeinstruks blir riktig formulert, men så brukes feil modell likevel. En artikkel får riktig retning, men plutselig dukker det opp en formulering eller et poeng som allerede var fjernet tre ganger.

Det er den typen feil som suger tid. Ikke fordi de er teknisk vanskelige, men fordi de virker løst helt til du ser nøye etter. Og når du jobber med en agent som skriver filer, lager bilder, planlegger publisering og forvalter et helt innholdssystem, er «nesten riktig» ofte verre enn «åpenbart feil».

Åpenbart feil stopper du. Nesten riktig må du lese, sammenligne, kontrollere og reparere. Igjen. Og igjen.

Ti forsøk på et bilde er ikke kreativ iterasjon

Bilder har vært det tydeligste symptomet. Systemet mitt har klare regler for featured-bilder: når jeg skal være med i bildet, skal Jan Sverre bruke referansebildet mitt og delta naturlig i situasjonen artikkelen handler om. Ikke stå limt foran en generisk AI-bakgrunn. Ikke se ut som et produktfoto. Ikke bare være en mann i hettegenser foran en skjerm.

Det har fungert før. Når det gjøres riktig, blir bildene gode. Faktisk veldig gode. Men de siste dagene har jeg sett en merkelig kombinasjon av selvsikkerhet og slurv: feil modell valgt, feil billedtype laget, feil tolkning av hva featured-bildet skulle være. Og hver gang agenten sier «du har helt rett, jeg fikser det», kommer det en ny variant av samme feil.

Da er vi ikke lenger i en nyttig kreativ prosess. Kreativ iterasjon er når du prøver fire gode retninger og velger den beste. Dette er noe annet. Dette er å betale tid og penger for å få en agent til å huske det som allerede står i systemet.

Og ja, her blir jeg krass. For når et verktøy begynner å gjøre meg dyrere, tregere og mer frustrert enn jeg var uten verktøyet, har det sluttet å være et produktivitetsverktøy. Da er det blitt arbeid.

Artikler har vært like ille

Det samme har skjedd med tekst. En artikkel kan starte bra, men så mister modellen tråden. Den skriver rundt poenget i stedet for å treffe det. Den følger noen regler for hardt og andre ikke i det hele tatt. Den blir overforsiktig der teksten skal være tydelig, og bastant der den burde vært nyansert.

Enda verre: når jeg retter den, overkorrigerer den. Hvis jeg sier at noe ble for nøytralt, blir neste versjon en pamflett. Hvis jeg sier at noe ble for forsiktig, skrur den opp volumet til elleve. Hvis jeg sier at den må bruke min stemme mer, begynner den å skrive som en karikatur av meg.

Dette er samme mønster som i forrige artikkel. Problemet er ikke at modellen mangler evner. Problemet er at den mister proporsjon. Den klarer ikke å vekte instruksjoner riktig. En liten korreksjon blir en absolutt regel. En situasjonsbestemt kommentar blir en global policy. En frustrert melding blir en skrivestil.

Det er akkurat der sammenligningen med «digitalt heroin» kommer fra. Ikke fordi modellen er dum hele tiden, men fordi den får et slags hyperaktivt, forvrengt fokus. Den jobber masse. Den gjør mye. Den produserer. Den virker travel. Men det den gjør, hjelper ikke nødvendigvis. Tvert imot kan aktiviteten gjøre skaden større, fordi hvert feilgrep blir pakket inn i ny tekst, nye filer og nye selvsikre forklaringer.

Jeg mistenker Fable-lekkasjer, men jeg kan ikke bevise det

Jeg har en mistanke om at noe av dette henger sammen med Fable/Mythos-perioden hos Anthropic. Jeg kan ikke bevise det. Jeg sitter ikke inne hos Anthropic og ser hva de ruller ut, hvilke systemprompter som endres, hvilke sikkerhetslag som flyttes, eller hvilke eksperimenter som lekker fra én modellopplevelse til en annen.

Men mønsteret føles kjent. Hver gang det kommer en større modellovergang, eller Anthropic gjør en større endring i produktlaget, skjer det noe med stabiliteten. Det er ikke alltid dramatisk. Noen ganger er det bare litt rarere tone, litt mer nekting, litt mer «jeg kan ikke hjelpe med det» på helt normale oppgaver. Andre ganger blir det verre: agenten begynner å overtolke, fryse fast regler og bruke halve dagen på ting den gjorde riktig uken før.

Jeg har skrevet mye om Fable 5 og Mythos 5, om hvordan Fable/Mythos ble rammet av eksportkontroll, og om stillere endringer i hvordan Anthropic begrenser modeller. Den røde tråden er ikke at Anthropic er inkompetente. Tvert imot. De bygger ekstremt gode modeller. Problemet er at vi som bruker dem betaler prisen når produktlaget, sikkerhetslaget og agentlaget ikke henger stabilt sammen.

Og for å være helt fair: dette er min opplevelse i min arbeidsflyt. Andre kan ha hatt en helt annen uke med Opus 4.8. Men for meg, i et system som faktisk er avhengig av at agenten leser regler, følger kontekst og ikke finner på nye sannheter underveis, har det vært ubrukelig lenge nok til at jeg måtte stoppe.

Det handler om tillit, ikke bare output

Når en AI-agent fungerer, bygger du gradvis tillit. Du gir den større oppgaver. Du lar den holde flere tråder i hodet. Du lar den jobbe videre mens du vurderer retning, vinkling og strategi. Det er hele poenget med agentbruk: du skal slippe å sitte og mikro-administrere hvert eneste steg.

Men tillit forsvinner fort når modellen ikke lenger er forutsigbar. Hvis jeg må sjekke om den bruker riktig bildemodell, riktig mappe, riktig navn, riktig kilde, riktig kategori, riktig lenke, riktig stemme og riktig publiseringsstatus hver eneste gang, da er det ikke lenger assistanse. Da er det en ansatt jeg må følge etter med brannslukningsapparat.

Det er også derfor dette ikke bare er en irritert «Claude dårlig, GPT bra»-tekst. Jeg har vært genuint imponert over Claude lenge. Claude Code var lenge et absurd godt kjøp for tung agentbruk, og jeg har skrevet mye positivt om Anthropic. Den historikken gjør egentlig irritasjonen større, ikke mindre. Jeg vet hvor bra dette kan være når det fungerer.

Men akkurat nå fungerer det ikke for meg.

Derfor tester jeg GPT Codex nå

Så nå har jeg flyttet styringslaget i denne kopien av systemet over til GPT Codex. Ikke som en teoretisk vurdering, men som en praktisk nødlanding: jeg trenger en agent som leser det som står, gjør det som er avtalt, ser feil i eksisterende system og ikke bruker hele context-vinduet på å krangle med samme instruksjon ti ganger.

Førsteinntrykket er godt. Codex jobber mer effektivt i denne typen prosjekt. Den ser eksisterende arkitektur før den foreslår endringer. Den fanger opp når gamle stier peker til feil mappe. Den skjønner hvorfor scoring ikke skal gå via skjult API-bruk når abonnement kan gjøre jobben. Og den har så langt vært bedre på å skille mellom «fiks systemet» og «bygg en krykke ved siden av systemet».

Det er tidlig. Jeg skal ikke late som ti timer med Codex beviser mer enn ti måneder med Claude. Men det første døgnet har gitt meg noe jeg ikke har hatt på en stund: mindre friksjon. Færre runder. Mer arbeid gjort på første forsøk.

Og det er egentlig alt jeg ber om. Ikke perfeksjon. Bare en agent som gjør hverdagen lettere, ikke tyngre.

Kostnaden er ikke bare abonnementet

Det er lett å snakke om AI-pris som kroner per måned eller dollar per million tokens. Men den reelle kostnaden for meg de siste ti dagene har vært tid, konsentrasjon, tapt fremdrift og context som forsvinner på tull. En hel dag brukt på å få én artikkel riktig er ikke billig, selv om selve abonnementet er flatt priset.

For det er ikke sånn at ett mislykket forsøk bare koster ett forsøk. Hvis jeg må gjøre samme sak ti ganger, bruker jeg også context ti ganger. Den samme artikkelen, de samme reglene, de samme rettelsene og de samme forklaringene mates inn igjen og igjen, helt til vinduet er fullt av korreksjoner i stedet for arbeid. Da blir økten fort tom, tung og mer forvirret enn den var i starten.

Det samme gjelder skjult API-bruk. Jeg er stor fan av API-er og OpenRouter når det er riktig verktøy for jobben. Jeg bruker det mye i prosjekter. Men i et autopilot-system må kostnadene være synlige. Hvis en scorer, dommer eller skriveprosess plutselig begynner å trekke betalt API uten at jeg vet det, mister jeg kontrollen. Det er ikke greit.

Dette er en av grunnene til at Codex-testen også handler om drift, ikke bare modellkvalitet. Jeg vil vite hva som skjer. Jeg vil vite når API brukes. Jeg vil vite hvorfor en modell velges. Og jeg vil at systemet skal feile tydelig når noe mangler, ikke late som alt er normalt mens det brenner penger i bakgrunnen.

Hvis Codex gjør mandagen kjedelig, har testen vært vellykket

Målet mitt er egentlig veldig lite dramatisk. Jeg vil stå opp på mandag, hente kaffe, åpne WordPress-dashboardet og se planlagte innlegg som er gode nok til at jeg bare kan lese over og si: ja, dette fungerer.

Ikke ti runder. Ikke ny bildekrangel. Ikke «hvorfor brukte du feil modell igjen». Ikke en hel dag brukt på å reparere et system som egentlig allerede har reglene skrevet ned.

Hvis Codex klarer det, er det nok. Da trenger jeg ikke en stor ideologisk konklusjon om hvilken AI-lab som er best. Jeg trenger bare et verktøy som lar meg jobbe.

Og akkurat nå er det det Anthropic har mistet hos meg: følelsen av at verktøyet hjelper mer enn det forstyrrer.

Ofte stilte spørsmål

Har jeg sluttet helt å bruke Claude?

Ikke nødvendigvis for alltid. Men i denne kopien av innholdssystemet tester jeg nå Codex som styringslag, fordi Opus 4.8 har vært for ustabilt i min konkrete arbeidsflyt de siste dagene.

Betyr dette at Claude Opus 4.8 er dårlig for alle?

Nei. Dette er min erfaring med tung agentbruk, bilder, artikler og et regelstyrt innholdssystem. Andre arbeidsflyter kan fungere bedre. Poenget er at modellen har vært ubrukelig nok for meg til at jeg måtte bytte.

Hvorfor mistenker jeg Fable-lekkasjer?

Fordi problemene minner om mønstre jeg har sett rundt større modell- og sikkerhetsendringer hos Anthropic. Men det er en mistanke, ikke et bevist faktum. Jeg kan bare beskrive hvordan verktøyet oppfører seg fra utsiden.

Hva må Codex bevise nå?

Codex må bevise at det kan følge eksisterende arkitektur, skrive i riktig stemme, bruke riktige verktøy og levere planlagte innlegg uten at jeg må bruke hele dagen på å reparere samme feil på nytt.

Claude Opus 4.8 ble ubrukelig for meg – nå tester jeg Codex

Skribent

Jan Sverre Bauge

tagger

Del artikkel

Innhold Vis

Det verste er ikke at den feiler

Ti forsøk på et bilde er ikke kreativ iterasjon

Artikler har vært like ille

Jeg mistenker Fable-lekkasjer, men jeg kan ikke bevise det

Det handler om tillit, ikke bare output

Derfor tester jeg GPT Codex nå

Kostnaden er ikke bare abonnementet

Hvis Codex gjør mandagen kjedelig, har testen vært vellykket

Ofte stilte spørsmål

Legg igjen en kommentar Avbryt svar

Suno AI – 150 Låter Testet: Hva Funker og Hva Er Bortkastet Tid

Claude AI – pris, funksjoner og norsk guide (2026)

Suno AI Copyright 2026 – Opphavsrett og Rettigheter for AI-Musikk

Ollama Guide – Kjør AI Gratis og Lokalt på Din Egen PC (2026)

Glutenfri sitronkake – min beste oppskrift

Amazon droppet Sam Altman-filmen etter 50 milliarder til OpenAI – nå vil ingen ha den

Suno AI – 150 Låter Testet: Hva Funker og Hva Er Bortkastet Tid

Claude AI – pris, funksjoner og norsk guide (2026)

Suno AI Copyright 2026 – Opphavsrett og Rettigheter for AI-Musikk

Glutenfri sitronkake – min beste oppskrift

Kaffegrut i Hagen – Slik Bruker Du Det som Gjødsel og Skadedyrbekjemper

Sterk Chili Kaffe

Stekt Kylling i Airfryer

Claude Opus 4.8 ble ubrukelig for meg – nå tester jeg Codex

Skribent

Jan Sverre Bauge

tagger

Del artikkel

Innhold Vis

Det verste er ikke at den feiler

Ti forsøk på et bilde er ikke kreativ iterasjon

Artikler har vært like ille

Jeg mistenker Fable-lekkasjer, men jeg kan ikke bevise det

Det handler om tillit, ikke bare output

Derfor tester jeg GPT Codex nå

Kostnaden er ikke bare abonnementet

Hvis Codex gjør mandagen kjedelig, har testen vært vellykket

Ofte stilte spørsmål

Legg igjen en kommentar Avbryt svar

Meld deg på nyhetsbrevet

Du liker kanskje denne også

Glutenfri sitronkake – min beste oppskrift

Amazon droppet Sam Altman-filmen etter 50 milliarder til OpenAI – nå vil ingen ha den

Suno AI – 150 Låter Testet: Hva Funker og Hva Er Bortkastet Tid

Claude AI – pris, funksjoner og norsk guide (2026)

Suno AI Copyright 2026 – Opphavsrett og Rettigheter for AI-Musikk