AI-kostnader: Amazon, Walmart og Uber bremser AI-bruken

Innhold Vis

AI-regningen ble plutselig mye større enn noen hadde regnet med. Financial Times meldte nylig at flere av de største selskapene i verden – Amazon, Walmart, Cisco, Uber og Meta – nå bremser AI-bruken fordi kostnadene har begynt å tære på budsjettene. Ikke fordi AI ikke funker, men fordi regnestykket ikke gikk opp.

Undertittelen på FT-saken sier det meste: «Vi skapte et monster.» Ledere som for ett år siden ivrig rullet ut AI-verktøy til hele staben, ser nå på fakturalinjene med hevet øyenbryn. Det er et ganske typisk forløp – og det er verdt å forstå hvorfor det skjer akkurat nå.

Dette handler ikke bare om de store. Hvis du driver en liten bedrift eller bruker AI-verktøy privat, er det nyttig å vite hva som presser prisene opp – og hvilke valg du har.

Hva skjer egentlig?

De konkrete eksemplene fra FT-saken er ganske talende. Uber brukte opp hele AI-budsjettet for 2026 allerede i april, og begrenser nå hver ansatt til 1 500 dollar i måneden i token-forbruk per verktøy. Walmart innførte tak på sin interne «Code Puppy»-plattform etter at bruken «virkelig skjøt i været». Og Amazon ba i forrige måned de ansatte om å slutte å bruke AI «bare for å bruke AI» – etter at ingeniører satte agenter i sving for å klatre på interne topplister.

Mange av disse budsjettene ble planlagt i 2025. Den gangen visste ingen hvor token-intensive coding agents og avanserte agentic workflows kom til å bli. En som jobber aktivt med AI-kodeverktøy kan generere enormt mange tokens i løpet av en arbeidsdag – og hvert token koster.

Som Costi Perricos i Deloitte oppsummerte det overfor FT: forbrukere og bedrifter har blitt lært opp til at AI er billig eller gratis, og det stemmer definitivt ikke. Compute-kostnadene begynner nå å nå helt inn i hodet på både finansdirektører og styrer.

Skjermvisning av cloud-kostnader med kraftig oppgang i API-bruk — API-basert prising gjør det vanskelig å forutsi hva AI faktisk koster per måned

Fra abonnement til API – der smellen kom

En av de viktigste forklaringene på kostnadssjokket er skiftet fra faste abonnementspriser til API-basert betaling. Med et abonnement vet du hva du betaler uansett hvor mye du bruker. Med API-prising er det bruken som bestemmer regningen.

Det høres fornuftig ut i teorien – du betaler for det du bruker. Problemet er at det er svært vanskelig å forutsi hvor mye en ansatt faktisk kommer til å bruke, særlig når coding agents og lange agentkjeder begynner å ta av. En enkelt oppgave kan i verste fall generere hundretusenvis av tokens uten at brukeren merker det. Det er nettopp dette Uber og Walmart nå prøver å demme opp for med harde tak.

Dette er forresten noe jeg selv er bevisst på. Prompt caching og smarte API-valg kan gjøre en merkbar forskjell på sluttsummen – uten at du trenger å bruke mindre. Grunnen er enkel: de fleste sender mye unødvendig kontekst med i hver forespørsel, noe som driver token-forbruket opp i taket.

ROI-en som ikke dukket opp

Det er ingen hemmelighet at det har vært mye hype rundt AI de siste årene. Og der det er hype, følger det gjerne overdrevne forventninger. Mange selskaper kjøpte inn verktøy basert på lovnader om dramatisk produktivitetsøkning – og da regnskapet kom, stemte ikke tallene. Flere av selskapene i FT-saken slet rett og slett med å knytte AI-utgiftene til konkrete forbedringer de kunne peke på.

Det betyr ikke at AI er ubrukelig – slett ikke. Men det er en viktig forskjell mellom «AI gir oss verdi» og «AI gir oss nok verdi til å rettferdiggjøre den fakturaen». For mange havnet de på feil side av den linjen.

En kommentator i Hacker News-tråden rundt saken pekte på noe treffende: nok ledere trodde på det som ble lovet, uten at det egentlig trengtes reelle bevis. Det er en form for gruppetenkning vi har sett i teknologibransjen før – VR og krypto gikk gjennom det samme. AI er ikke immunt mot det.

Resultatet er at selskapene nå strammer inn. Token-tak per ansatt. Godkjenningsrunder for avdelinger som vil bruke mer. Strengere vurderinger av hvilke verktøy som faktisk gir nok tilbake til å beholde lisensen. Amazons beskjed om å ikke bruke AI «bare for å bruke AI» er egentlig hele poenget i én setning.

Hva betyr dette for deg som bruker AI?

Du driver kanskje ikke Uber, men de samme grepene fungerer i det små. Hvis du bruker AI selv eller i en liten bedrift, er det noen konkrete ting å se på når regningen begynner å svi.

Bruk riktig modell til riktig oppgave. Frontier-modeller som GPT-4o og Claude Opus er kraftige, men de er også dyre. For mange oppgaver – tekstoppsummering, enkel korrektur, rutinearbeid – holder en billigere og raskere modell godt. Qwen3.5 9B er et eksempel på en modell som gir solid ytelse til en brøkdel av prisen på de store. Er den tilgjengelig via OpenRouter, er det enkelt å rute de lette oppgavene dit.

Lokale modeller er et reelt alternativ. For bedrifter som håndterer sensitive data – eller bare vil ha forutsigbare kostnader – er det verdt å se på løsninger som kjører modellen lokalt i stedet for i skyen. Det krever hardware, men er teknisk sett innen rekkevidde for mange. Claw Code er ett eksempel på open source-verktøy som støtter nettopp dette.

Fine-tuning kan erstatte dyrt prompt-engineering. En ferdig finjustert liten modell kan slå en stor generalistmodell på smale oppgaver – og til lavere kostnad per forespørsel. Fine-tunede Qwen3-modeller er ett konkret eksempel på dette.

Prompt caching er undervurdert. Sender du mye av den samme konteksten med i forespørsler – system-prompter, lange instruksjoner, bakgrunnsdokumenter – kan caching kutte kostnadene kraftig uten at du gjør noe annet enn å slå det på. Her er en gjennomgang av hvordan det fungerer i praksis.

To server-representasjoner side om side - dyr stor modell versus effektiv liten modell — Riktig modell til riktig oppgave er den enkleste måten å kutte AI-kostnadene på

Er dette starten på AI-vinteren?

Det er fristende å lese kostnadsinnstrammingene som et tegn på at AI-boblen holder på å sprekke. Jeg tror det er feil analyse.

Det som skjer nå er mer modning enn kollaps. Selskaper som kjøpte alt på én gang, uten strategi, uten å vite hva de trengte, strammer nå inn. Det er en helt naturlig markedsreaksjon. Verktøyene som faktisk leverer, beholder brukerne sine. De som ikke gjør det, mister dem. Slik skal det fungere – og at Amazon og Walmart begynner å telle tokens er et sunnhetstegn, ikke et faresignal.

Parallelt jobber verktøyleverandørene hardt med å effektivisere. Token-optimalisering, smartere cache-strategier, billigere inferens-infrastruktur – alt dette presser kostnadene nedover over tid. En jobb som koster 10 dollar å kjøre i dag, kan godt koste 1 dollar om to år.

Det betyr ikke at du skal ignorere fakturaen. Men det betyr at «AI er for dyrt» ikke nødvendigvis er et svar for alltid – det er gjerne et svar for akkurat nå, med akkurat disse verktøyene, brukt på akkurat denne måten.

Ofte stilte spørsmål

Hvilke selskaper bremser AI-bruken?

Ifølge Financial Times er Amazon, Walmart, Cisco, Uber og Meta blant de tidlige brukerne som har innført tak, frarådet sløsete bruk eller dyttet ansatte over på billigere modeller. Uber brukte opp hele 2026-budsjettet sitt allerede i april og begrenser nå hver ansatt til 1 500 dollar i måneden i token-forbruk per verktøy.

Hvorfor ble AI plutselig så dyrt for bedrifter?

Hovedgrunnen er skiftet fra faste abonnementspriser til API-basert betaling kombinert med at coding agents og agentic workflows er langt mer token-intensive enn folk regnet med. Budsjetter lagt i 2025 traff en virkelighet der én ansatt kan generere hundretusenvis av tokens på en arbeidsdag.

Kan jeg spare penger ved å bytte til en billigere AI-modell?

Ja, ofte betydelig. For mange oppgaver – tekstoppsummering, enkel analyse, kodegjennomgang – er det ingen praktisk forskjell mellom en frontier-modell og en billigere modell. Bruk den store modellen der den faktisk trengs, og en lettere variant til rutineoppgaver. OpenRouter gjør det enkelt å rute oppgaver til riktig modell.

Er lokale AI-modeller et reelt alternativ for småbedrifter?

Det avhenger av hva du skal bruke dem til og om du har egnet hardware. En RTX 3090 eller 4090 er nok til å kjøre gode modeller lokalt. Fordelen er forutsigbar kostnad og full kontroll over dataene. Ulempen er oppsett og vedlikehold – det krever litt teknisk vilje.