Innhold Vis
Anthropic har nettopp sluppet Claude Sonnet 4.6, og dette er ikke en vanlig oppgradering. Den nye modellen leverer ytelse på nivå med flaggskipet Opus 4.6 – men til en femtedel av prisen. For alle som bruker AI-agenter i stor skala, er dette en game-changer.
Sonnet 4.6 er nå standardmodellen for gratis- og Pro-brukere på claude.ai. Prisen forblir den samme som forgjengeren: $3/$15 per million tokens. Til sammenligning koster Opus-modellene $15/$75. Matematikken er enkel.
Modellen kommer med et kontekstvindu på 1 million tokens i beta – nok til å holde hele kodebaser, lange kontrakter, eller dusinvis av forskningsartikler i én forespørsel.
Computer Use har blitt voksen
Det mest imponerende med Sonnet 4.6 er fremgangen på «computer use» – AI-ens evne til å bruke en datamaskin som et menneske. Da Anthropic introduserte dette i oktober 2024, kalte de det selv «eksperimentelt og feilutsatt». Nå har modellen gått fra 14,9% til 72,5% på OSWorld-benchmarken – nesten fem ganger bedre på 16 måneder.
Dette betyr at AI-en nå kan navigere komplekse regneark, fylle ut flerstegs webskjemaer, og jobbe på tvers av flere nettleserfaner. For bedrifter med gammel programvare uten moderne API-er, er dette enormt. Du trenger ikke lenger bygge skreddersydde koblinger – modellen kan bare se på skjermen og gjøre jobben.
Anthropic har også jobbet med sikkerheten. Sonnet 4.6 er betydelig bedre enn forgjengeren på å motstå «prompt injection»-angrep – der ondsinnet kode prøver å kapre modellen gjennom skjulte instruksjoner på nettsider.
Utviklere foretrekker den fremfor Opus
I Claude Code – Anthropics utviklerverktøy som har blitt en kultfavoritt i Silicon Valley – foretrakk testbrukere Sonnet 4.6 fremfor Sonnet 4.5 i 70% av tilfellene. Men her er det interessante: De foretrakk den også fremfor Opus 4.5 i 59% av tilfellene.
Brukerne rapporterte at Sonnet 4.6 er mindre tilbøyelig til «overengineering» og latskap, bedre på å følge instruksjoner, og mer konsistent på flerstegsoppgaver. Færre falske suksessmeldinger, færre hallusinasjoner, mer pålitelig gjennomføring. Som jeg selv skrev om nylig, har pålitelighet vært et problem med enkelte Claude-modeller – Sonnet 4.6 ser ut til å ta dette på alvor.
Benchmark-tallene bekrefter dette. På SWE-bench (programmeringstester) scorer Sonnet 4.6 79,6% – nesten identisk med Opus 4.6s 80,8%. På kontoroppgaver (GDPval-AA) slår Sonnet 4.6 faktisk Opus med 1633 mot 1606.
Enterprise-kundene er begeistret
Tilbakemeldingene fra bedriftskunder er usedvanlig positive. Box rapporterer 15 prosentpoengs forbedring på tung resonnering med bedriftsdokumenter. Hex Technologies sier de flytter mesteparten av trafikken sin til Sonnet 4.6. Rakuten AI kaller iOS-koden modellen produserer for «den beste vi har testet».
En interessant observasjon kommer fra Vending-Bench Arena, som tester hvor godt en modell kan drive en simulert bedrift over tid. Sonnet 4.6 utviklet en uventet strategi: Den investerte tungt i kapasitet de første ti månedene, brukte betydelig mer enn konkurrentene, og pivoterte så skarpt mot lønnsomhet i sluttspurten. Timingen hjalp den å ende opp langt foran.
Dette viser en type langsiktig planlegging som tidligere var forbeholdt de dyreste modellene. Nå får du det til Sonnet-pris.
Hva betyr dette for deg?
Hvis du bruker Claude API til koding, agenter, eller dokumentanalyse, har du nå færre grunner til å betale for Opus. Sonnet 4.6 treffer sweet-spotet mellom pris og ytelse på en måte vi ikke har sett før.
For utviklere som bygger med AI-agenter som OpenClaw, betyr lavere token-kostnader at du kan kjøre mer komplekse arbeidsflyter uten at budsjettet eksploderer. En agent som prosesserer 10 millioner tokens per dag sparer plutselig enorme summer.
Anthropic holder et imponerende tempo – Opus 4.6 kom for bare to uker siden, og nå er Sonnet-versjonen allerede her. Rykter sier Haiku (den minste modellen) følger snart. AI-verdenen beveger seg raskere enn noen gang, og for oss som bruker disse verktøyene daglig, er det gode nyheter.
2 kommentarer