Kjører du OpenClaw eller lignende AI-agenter? Da brenner du sannsynligvis penger uten å vite det. Som standard sender disse verktøyene alt til din primærmodell — heartbeats, enkle oppslag, sub-agenter — alt går til Opus eller GPT-5.2 til fullpris.
Det er som å hyre en advokat til å sjekke postkassen din. Det funker, men det gir null økonomisk mening.
Problemet med én modell for alt
De fleste AI-agent-oppsett ser slik ut: Én modell håndterer alt. Kompleks koding? Opus. Heartbeat-sjekk hvert 30. minutt? Opus. Sub-agent som sjekker været? Opus.
Opus koster rundt 30 dollar per million tokens. En heartbeat-sjekk trenger ikke den intelligensen. En rask kalenderoppslag trenger ikke den intelligensen. Du betaler premium for oppgaver som en langt billigere modell håndterer like bra.
I tillegg har du ingen fallback. Når Anthropics API treffer en rate limit, stopper agenten din. Ingen automatisk bytte til OpenAI eller noe annet.
Løsningen: Model tiering
Trikset er å bruke forskjellige modeller for forskjellige oppgaver basert på hva hver enkelt faktisk trenger.
Kompleks resonnering — arkitekturbeslutninger, multifilrefaktorering — trenger en frontier-modell. Opus eller GPT-5.2. De er dyre, men verdt det for vanskelige oppgaver.
Daglig arbeid — kodegenerering, research, innholdsproduksjon — fungerer utmerket på en mid-tier modell som Sonnet eller DeepSeek R1. R1 koster 90% mindre enn Opus med tilsvarende resonnementskvalitet.
Enkle oppgaver — heartbeats, raske oppslag, klassifisering — bør bruke den billigste modellen som fungerer. Gemini Flash koster 50 cent per million tokens. DeepSeek V3 koster 53 cent. Det er 60 ganger billigere enn Opus.
For en heartbeat er det ingen kvalitetsforskjell. Den billige modellen fungerer like bra som Opus. Og billige modeller er også raskere — Gemini Flash kjører på rundt 250 tokens per sekund, Opus på rundt 50. Du får svar raskere og betaler 60 ganger mindre.
Konkrete besparelser
La oss se på noen realistiske scenarier.
Lett bruker — 24 heartbeats daglig, 20 sub-agent-oppgaver, 10 spørringer. Med alt på Opus: cirka 200 dollar i måneden. Med optimalisert oppsett: cirka 70 dollar. 65% besparelse.
Power user — 48 heartbeats daglig, 100 sub-agenter, 50 spørringer. Med alt på Opus: 943 dollar. Optimalisert: 347 dollar. 600 dollar spart per måned.
Heavy user — multiple agenter, masse parallelt arbeid. Fra nesten 3000 dollar til 1000 dollar. 1700 dollar spart månedlig.
Hvordan sette det opp
I OpenClaw-konfigurasjon (eller tilsvarende for andre agenter) definerer du hvilken modell som håndterer hvilken oppgave. Heartbeat-modell settes til noe billig som Gemini Flash. Sub-agent-modell settes til noe som DeepSeek R1. Primærmodellen din forblir Opus for de viktige oppgavene.
Du kan også sette opp en fallback-kjede. Hvis Anthropic er rate-limited, hopper du automatisk til GPT-5.2 fra OpenAI. Holder agenten din i gang selv når én provider har problemer.
Hvorfor ikke bruke gratis modeller?
Det finnes gratis alternativer — Kimi K2.5 på Nvidia, DeepSeek free tier på OpenRouter. Men de har aggressive rate limits som stopper agenten din midt i en oppgave. De er trege fordi mange bruker dem. Og de kan forsvinne uten varsel.
For en agent du vil stole på 24/7, er pålitelighet verdt noen øre per million tokens. Modeller som koster 40-50 cent per million — Gemini Flash, DeepSeek, GLM-4.7 — gir deg den påliteligheten uten å knuse budsjettet.
Oppsummert
Slutt å betale advokat-priser for postkasse-sjekking. Sett opp model tiering, og du kutter kostnadene med 50-80% uten å miste kvalitet på oppgavene som faktisk trenger intelligens.
De billige modellene har blitt gode nok til at det ikke lenger gir mening å kjøre alt på frontier-modeller. Bruk Opus når du trenger Opus. Bruk Flash når Flash holder.
Lommeboken din vil takke deg.
4 kommentarer