Slik sparer du Claude-tokens uten å gjøre noe

Innhold Vis

Du har allerede spart penger i dag uten å vite det. Hvis du bruker Claude Code aktivt, er det en god sjanse for at en stor del av det du sender inn har gått til cached tokens – som koster bare 10% av normal input-pris. Det skjer automatisk, uten at du trenger å konfigurere noe som helst.

Men akkurat som alt annet i Claude Code er det litt å forstå for å ikke sabotere det ved en feiltakelse. Og det er et par feller som virker uskyldig, men som nullstiller cachen fullstendig.

Her er det du trenger å vite – inkludert den ene tingen med å redigere CLAUDE.md midt i en sesjon som overrasker de fleste.

Hva er egentlig prompt caching?

Når du sender en melding til Claude, behandles den som input-tokens. Uten caching betaler du full pris hver gang – selv for de delene som er identiske fra melding til melding, som systemprompten, verktøydefinisjoner og instruksjoner. Med prompt caching lagrer Anthropic de delene i en rask cache, og neste gang de samme tokens dukker opp betaler du bare 10% av normal pris for dem. Anthropic har dokumentert dette i sin prisstruktur – «cache read» er den billigste input-typen de tilbyr.

Forskjellen i praksis er ikke ubetydelig. En lang sesjon med mye kontekst kan lett ha 50-80% av input-tokens i cache. For deg som betaler per token – enten via API eller gjennom en bedriftslisens – er det reell besparelse. Og for deg på Max-abonnementet hever det session-taket indirekte, siden Anthropic selv bruker cache hit rate som et kvalitetsmål internt.

De tre cache-lagene i Claude Code: system, project og conversation — Tre lag bygges opp automatisk: system layer, project layer og conversation layer

Hvilke tre lag caches automatisk?

Claude Code bygger opp cachen i tre distinkte lag, fra bunnen og opp:

System layer: Selve instruksjonene til Claude, verktøydefinisjoner og output-format. Dette endres sjelden, og ligger i bunn av cachen.
Project layer: CLAUDE.md, rules, memory-filer og annet prosjektspesifikt innhold du har lagt inn. Dette caches over systemlaget.
Conversation layer: Meldingene frem og tilbake. Dette recaches for hver tur, som forventet – men de to lagene under ligger trygt i cache så lenge sesjonen er aktiv.

Det vil si: en CLAUDE.md som er 5000 tokens lang blir lest fra cache på nesten alle meldinger. Du betaler full pris én gang for å skrive den til cache («cache create»), og deretter 10% av den prisen for alle påfølgende lesninger («cache read»). Det er det faktisk verdt å ha en grundig CLAUDE.md – kostnaden amortiseres raskt. Ser du etter tips til hvordan du optimaliserer konteksten i Claude Code, er dette relevant bakgrunnsstoff.

Hvor lenge varer cachen?

Her er det en praktisk distinksjon som er verdt å merke seg. TTL (time-to-live) er forskjellig avhengig av hvordan du bruker Claude:

Claude Code via Max-abonnement: 1 time TTL. Cachen holder seg i en time etter siste melding.
API / sub-agents (standard): 5 minutter TTL – men dette kan oppgraderes til 1 time mot et lite påslag på cache create-kostnaden.

For en vanlig Claude Code-sesjon betyr det at du kan ta en pause, hente kaffe, svare på en epost – og komme tilbake innen en time uten at cachen er borte. Etter en time nullstilles alt, og neste melding bygger opp cachen fra bunnen igjen.

Hva bryter cachen (og hva gjør det ikke)?

Her er det noen ting som overrasker. Det intuitive svaret – «at cachen brytes når du endrer noe» – stemmer bare delvis.

Disse tingene bryter cachen:

Pause på over 1 time uten aktivitet – TTL utløper, full recache på neste melding
/compact eller /clear – dette er ment å nullstille, så det er forventet og ofte ønskelig
Bytte modell midt i sesjon – og dette er viktig nok til å nevne separat
Endre system prompt

Modell-bytte er den mest undervurderte cache-dreperen. Det populære trikset med «Opus for planlegging, Sonnet for eksekvering» – altså å toggle mellom modeller i en sesjon – betyr at du betaler full recache-pris for hvert bytte. Hver toggle er en model switch, som er en ny cache. For korte oppgaver er det kanskje verdt det likevel, men det er greit å vite hva du faktisk betaler for.

Hva bryter prompt cachen i Claude Code - modell-bytte nullstiller alt — Modell-bytte er den vanligste cache-dreperen – hver toggle nullstiller hele cachen

Denne tingen bryter IKKE cachen (og det overrasker mange):

Å redigere CLAUDE.md midt i en aktiv sesjon bryter ikke cachen. Endringen tas først inn ved neste restart av Claude Code. Det betyr at du fritt kan oppdatere CLAUDE.md mens du jobber – uten at det koster deg en recache der og da. En nyttig innsikt hvis du har et større prosjekt og jevnlig finjusterer konteksten din.

Hva er sammenhengen mellom caching og session-grenser?

Anthropic har bekreftet at de kjører intern overvåking på prompt cache hit rate, og at de erklærer SEV (alvorlig hendelse) internt hvis raten faller for lavt. Det er ikke bare for brukerens skyld – høy cache hit rate betyr raskere responstid og lavere serving cost for Anthropic. Det er en av grunnene til at Claude Code-abonnementet kan tilby relativt sjenerøse session-grenser: caching gjør det mulig å betjene mange brukere uten lineær kostnadsøkning.

For deg som API-bruker er sammenhengen mer direkte. Artikkelen om Claude API vs Claude Max går gjennom kostnadsregnestykket i detalj – men prompt caching er en av de viktigste faktorene når du regner på hva som faktisk lønner seg.

Tre vaner som dekker 95% av brukere

Du trenger ikke tenke på caching til daglig. Men disse tre vanene sikrer at du ikke saboterer det uten å vite det:

Ikke la sesjonen henge lenger enn en time. Hvis du er ferdig for dagen, avslutter du. Hvis du tar en lengre pause midt i en oppgave, er det lurt å avslutte sesjonen og starte fresh – ikke la vinduet stå åpent.
Start fresh ved oppgavebytte. /clear eller /compact når du bytter til noe nytt er smart av to grunner: du får relevant cache for den nye oppgaven, og du unngår at gammel kontekst forvirrer Claude. Koster deg en recache, men du ville ha brukt unødvendige tokens på irrelevant kontekst uansett.
Unngå hyppig modell-toggling. Hvis du vil bruke Opus for en spesifikk kompleks oppgave, gjør det som en separat sesjon – ikke toggle frem og tilbake i samme sesjon. Hver toggle nullstiller cachen.

Bruker du Claude.ai på web (ikke Claude Code direkte)? Da er det verdt å merke seg at Projects gir bedre caching for store dokumenter enn vanlig chat. Laster du opp et 50-siders dokument i en chatsamtale, behandles det på nytt for hver melding. I Projects caches det.

Er dette relevant for deg?

Hvis du bruker Claude Code på Max-abonnementet og jobber innen sesjoner på under en time, er svaret enkelt: caching skjer, du sparer penger automatisk, og det eneste du bør unngå er overdreven modell-toggling. Det er det.

Hvis du derimot bruker API-et direkte – eller jobber med sub-agents og Claude Code Plan Mode for større workflows – er 5-minutters TTL en faktor du bør ta hensyn til i arkitekturen. En pipeline der sub-agents jobber med lange intervaller mellom seg vil tømme cachen mellom hvert steg. Da lønner det seg å betale det lille ekstra for 1-times TTL via API-parameterne.

Og hvis du lurer på om det er verdt å investere i Claude Code Max til $100 i måneden kontra å betale per token – er caching en av grunnene til at Max-abonnementet fort er billigst for aktive brukere. Den 1-times TTL alene gjør en stor forskjell for lange arbeidsøkter.

Slik sparer du Claude-tokens uten å gjøre noe

Neste

Anthropic henter 65 milliarder og slipper Opus 4.8 – hva betyr det for deg?

Skribent

Jan Sverre Bauge

tagger

Del artikkel

Innhold Vis

Hva er egentlig prompt caching?

Hvilke tre lag caches automatisk?

Hvor lenge varer cachen?

Hva bryter cachen (og hva gjør det ikke)?

Hva er sammenhengen mellom caching og session-grenser?

Tre vaner som dekker 95% av brukere

Er dette relevant for deg?

1 kommentar

Legg igjen en kommentar Avbryt svar

Suno AI – 150 Låter Testet: Hva Funker og Hva Er Bortkastet Tid

Claude AI – pris, funksjoner og norsk guide (2026)

Suno AI Copyright 2026 – Opphavsrett og Rettigheter for AI-Musikk

Ollama Guide – Kjør AI Gratis og Lokalt på Din Egen PC (2026)

Glutenfri sitronkake – min beste oppskrift

Amazon droppet Sam Altman-filmen etter 50 milliarder til OpenAI – nå vil ingen ha den

Suno AI – 150 Låter Testet: Hva Funker og Hva Er Bortkastet Tid

Claude AI – pris, funksjoner og norsk guide (2026)

Suno AI Copyright 2026 – Opphavsrett og Rettigheter for AI-Musikk

Glutenfri sitronkake – min beste oppskrift

Kaffegrut i Hagen – Slik Bruker Du Det som Gjødsel og Skadedyrbekjemper

Sterk Chili Kaffe

Stekt Kylling i Airfryer

Slik sparer du Claude-tokens uten å gjøre noe

Neste

Skribent

tagger

Del artikkel

Innhold Vis

Hva er egentlig prompt caching?

Hvilke tre lag caches automatisk?

Hvor lenge varer cachen?

Hva bryter cachen (og hva gjør det ikke)?

Hva er sammenhengen mellom caching og session-grenser?

Tre vaner som dekker 95% av brukere

Er dette relevant for deg?

1 kommentar

Legg igjen en kommentar Avbryt svar

Meld deg på nyhetsbrevet

Du liker kanskje denne også