Minnebrikke-aksjer raste med titalls milliarder dollar på 48 timer etter at Google publiserte TurboQuant-forskningen i mars 2026. SK Hynix falt 6 %, Samsung 5 %, Micron 3,4 %. Investorene konkluderte raskt: Googles KV-cache-komprimering ville gjøre minnebrikker overflødige.

Det fantes bare ett problem: nesten alle som faktisk jobber med maskinlæring forstod umiddelbart at markedet hadde misforstått. Reddit-tråden r/MachineLearning oppsummerte det presist – dette er en distinksjon som enhver med grunnleggende ML-kunnskap ser med en gang.

Her er den tekniske feilen markedet gjorde – og hvorfor den er større enn folk flest tror.

Hva er egentlig KV-cache?

Når en stor språkmodell genererer tekst, trenger den å huske konteksten – alle tokens som er prosessert i sekvensen. KV-cachen er et mellomlager som gjør dette raskere: i stedet for å beregne oppmerksomheten på nytt for hvert token, lagres mellomresultatene midlertidig under inferens (altså når modellen faktisk kjører og svarer brukeren).

Det er et fornuftig design. Og det er det TurboQuant komprimerer – fra 16 bits per verdi ned til 3 bits via polar coordinate quantization. Seks ganger lavere minnebruk. Opptil åtte ganger raskere attention-beregninger på H100. I bunn og grunn imponerende.

Men: KV-cache er inference memory. Den eksisterer bare mens en modell kjører og svarer. Det er ikke der flesteparten av minnebrikke-etterspørselen kommer fra.

Hva er det markedet glemte – treningsminne?

Trening av store AI-modeller er minnehungrig på en helt annen skala enn inferens. Under trening må maskinvaren holde styr på:

  • Modellvekter – selve parametrene som læres
  • Aktivasjoner – mellomresultater fra hvert lag i nettverket
  • Gradienter – endringene som beregnes under backpropagation
  • Optimizer states – historikk som Adam-optimizer holder for hvert parameter

TurboQuant rører ikke noe av dette. Ikke én bit. En 70 milliarder parameter-modell krever like mye HBM under trening etter TurboQuant som den gjorde dagen før. Treningsklynger som kjører GPT-5, Gemini 3, Grok 4 – de kjøper fortsatt like mye High Bandwidth Memory som planlagt.

Og det er her flaskehalsene faktisk sitter. Microns CEO bekreftet etter aksjeraset at all HBM-produksjon for hele 2026 allerede er solgt ut på pris og volum. Det var ikke en markedskommentar – det var et faktum som burde gjort panikksalget meningsløst.

Inference vs. training – et tall for å gjøre det konkret

De fleste store AI-selskaper bruker et sted mellom 60 og 80 prosent av sin minnekapasitet til trening, og resten til inferens. TurboQuant adresserer den lille delen – og gjør den langt mer effektiv.

Infografikk som viser at AI-treningsminne (60-80 prosent) dominerer HBM-etterspørselen, mens KV-cache bare er en liten del
TurboQuant komprimerer KV-cachen (inferensminne), men størstedelen av HBM-etterspørselen kommer fra trening – som er upåvirket.

Det er ikke negativt for minnemarkedet. Det er positivt. Billigere inferens betyr at det er lønnsomt å deploye langt større modeller, kjøre dem hyppigere, og åpne for brukstilfeller som tidligere var for kostbare. Agentiske arbeidsflyter – AI-systemer som kjører kontinuerlig med lange kontekstvinduer – bruker typisk 10 til 100 ganger mer tokens enn en enkel chat-sesjon.

Jeg har tidligere skrevet om dette i artikkelen om TurboQuant og Jevons paradoks – det klassiske fenomenet der effektivitetsforbedringer historisk sett øker totalforbruket, ikke reduserer det. LED erstatter glødelamper og vi bruker mer lys. Drivstoffeffektive biler, og vi kjører mer. Billigere AI-inference, og vi kjører mer AI.

Hvorfor klarte ikke markedet å se dette?

Det morsomme er ikke at markedet reagerte. Det er at reaksjonen kom umiddelbart, uten at noen hadde lest paperet ordentlig.

De store finanshusene bruker kvantitative modeller og nyhetsovervåking. En overskrift med «AI reduserer minnebruk med 6x» er nok til at algoritmer selger minneaksjer. Forståelsen av at KV-cache bare er én del av det totale minneregnskapet – og en relativt liten del – krever at noen faktisk har skumt gjennom et ML-paper på 20 minutter.

Det er ikke nødvendigvis et argument for at finansmarkedet er dumt. Det er et argument for at komplekse teknologier prises av mennesker og systemer som ikke alltid har tid – eller kompetanse – til å forstå den tekniske konteksten.

Samme fenomen skjedde med DeepSeek-R1 i januar 2026. Markedet solgte Nvidia fordi en kinesisk open source-modell virket billigere å trene. Det stemte på papiret, men ignorerte at billigere modeller bare betyr at etterspørselen eksploderer. Nvidia-aksjen hentet seg inn.

Hva betyr dette for KV-cache-komprimering fremover?

TurboQuant er faktisk bra for alle parter. Utviklere får raskere inferens og lavere kostnader. Sluttbrukere får raskere respons. Og minnebrikkeprodusenter får økt etterspørsel etter hvert som AI-modeller deployes bredere.

Den fotoniske brikken PRISM – som jeg dekket i mars – er et annet eksempel på KV-cache-optimalisering som faktisk øker maskinvareetterspørselen, ikke reduserer den. 944x raskere skanning betyr at du kan kjøre med mye lengre kontekster, som igjen krever mer samlet KV-cache-kapasitet.

Tre bits per verdi i stedet for 16 er ikke et signal om at minnebrikker er i ferd med å bli overflødige. Det er et signal om at AI-modeller snart kan ha kontekstvinduer på millioner av tokens til en brøkdel av kostnaden – og at alle vil bruke dem.

Markedet tapte titalls milliarder på 48 timer på en analyse de fleste med litt ML-bakgrunn ville avvist på ti minutter. Det sier mer om hvordan finansmarkedet priser teknologiaksjer enn om hva TurboQuant faktisk gjør med minneetterspørselen.

Se også gjennomgangen av TurboQuant-teknologien i sin helhet og den åpne Python-implementasjonen du kan installere og teste selv.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *

Meld deg på nyhetsbrevet

Få oppdateringer om AI nyhetene rett i inboxen!

Du liker kanskje denne også
Jan Sverre med headphones og lydmikser i boardroom-møte med forvirrede executives

Suno AI Copyright 2026 – Opphavsrett og Rettigheter for AI-Musikk

Kan du tjene penger på Suno-musikk? Her er en praktisk gjennomgang av rettigheter, risiko og hva du bør avklare før publisering.
Jan Sverre riding a dinosaur in safari outfit, photorealistic AI-generated image demonstrating Nano Banana Pro capabilities

Jeg testet Nano Banana Pro: AI som faktisk skriver norsk i bilder

Endelig! En AI som kan generere norsk tekst i bilder med 94% nøyaktighet. Jeg testet Nano Banana Pro grundig – her er resultatene.
Jan Sverre tester GPT-5.2 ved en transparent OpenAI GPT-skjerm

GPT-5.2: Jeg testet OpenAIs nyeste modell – her er hva som faktisk fungerer

GPT-5.2 er ute med tre versjoner. Jeg har testet thinking-modellen, sammenlignet med 5.1, og funnet ut hva som faktisk er bedre. Her er mine erfaringer.
Jan Sverre profesjonelt fotograf-kvalitet portrett AI-generert bildegenerering

Google NotebookLM

Google NotebookLM er en AI-assistent som gjør dokumenter om til interaktive samtaler, studieguidere og podcasts på norsk. Nå drevet av Gemini 3 Pro med nye funksjoner som infographics, slide decks og Deep Research. Komplett guide til gratis vs. Plus-versjon.