Innhold Vis
Minnebrikke-aksjer raste med titalls milliarder dollar på 48 timer etter at Google publiserte TurboQuant-forskningen i mars 2026. SK Hynix falt 6 %, Samsung 5 %, Micron 3,4 %. Investorene konkluderte raskt: Googles KV-cache-komprimering ville gjøre minnebrikker overflødige.
Det fantes bare ett problem: nesten alle som faktisk jobber med maskinlæring forstod umiddelbart at markedet hadde misforstått. Reddit-tråden r/MachineLearning oppsummerte det presist – dette er en distinksjon som enhver med grunnleggende ML-kunnskap ser med en gang.
Her er den tekniske feilen markedet gjorde – og hvorfor den er større enn folk flest tror.
Hva er egentlig KV-cache?
Når en stor språkmodell genererer tekst, trenger den å huske konteksten – alle tokens som er prosessert i sekvensen. KV-cachen er et mellomlager som gjør dette raskere: i stedet for å beregne oppmerksomheten på nytt for hvert token, lagres mellomresultatene midlertidig under inferens (altså når modellen faktisk kjører og svarer brukeren).
Det er et fornuftig design. Og det er det TurboQuant komprimerer – fra 16 bits per verdi ned til 3 bits via polar coordinate quantization. Seks ganger lavere minnebruk. Opptil åtte ganger raskere attention-beregninger på H100. I bunn og grunn imponerende.
Men: KV-cache er inference memory. Den eksisterer bare mens en modell kjører og svarer. Det er ikke der flesteparten av minnebrikke-etterspørselen kommer fra.
Hva er det markedet glemte – treningsminne?
Trening av store AI-modeller er minnehungrig på en helt annen skala enn inferens. Under trening må maskinvaren holde styr på:
- Modellvekter – selve parametrene som læres
- Aktivasjoner – mellomresultater fra hvert lag i nettverket
- Gradienter – endringene som beregnes under backpropagation
- Optimizer states – historikk som Adam-optimizer holder for hvert parameter
TurboQuant rører ikke noe av dette. Ikke én bit. En 70 milliarder parameter-modell krever like mye HBM under trening etter TurboQuant som den gjorde dagen før. Treningsklynger som kjører GPT-5, Gemini 3, Grok 4 – de kjøper fortsatt like mye High Bandwidth Memory som planlagt.
Og det er her flaskehalsene faktisk sitter. Microns CEO bekreftet etter aksjeraset at all HBM-produksjon for hele 2026 allerede er solgt ut på pris og volum. Det var ikke en markedskommentar – det var et faktum som burde gjort panikksalget meningsløst.
Inference vs. training – et tall for å gjøre det konkret
De fleste store AI-selskaper bruker et sted mellom 60 og 80 prosent av sin minnekapasitet til trening, og resten til inferens. TurboQuant adresserer den lille delen – og gjør den langt mer effektiv.

Det er ikke negativt for minnemarkedet. Det er positivt. Billigere inferens betyr at det er lønnsomt å deploye langt større modeller, kjøre dem hyppigere, og åpne for brukstilfeller som tidligere var for kostbare. Agentiske arbeidsflyter – AI-systemer som kjører kontinuerlig med lange kontekstvinduer – bruker typisk 10 til 100 ganger mer tokens enn en enkel chat-sesjon.
Jeg har tidligere skrevet om dette i artikkelen om TurboQuant og Jevons paradoks – det klassiske fenomenet der effektivitetsforbedringer historisk sett øker totalforbruket, ikke reduserer det. LED erstatter glødelamper og vi bruker mer lys. Drivstoffeffektive biler, og vi kjører mer. Billigere AI-inference, og vi kjører mer AI.
Hvorfor klarte ikke markedet å se dette?
Det morsomme er ikke at markedet reagerte. Det er at reaksjonen kom umiddelbart, uten at noen hadde lest paperet ordentlig.
De store finanshusene bruker kvantitative modeller og nyhetsovervåking. En overskrift med «AI reduserer minnebruk med 6x» er nok til at algoritmer selger minneaksjer. Forståelsen av at KV-cache bare er én del av det totale minneregnskapet – og en relativt liten del – krever at noen faktisk har skumt gjennom et ML-paper på 20 minutter.
Det er ikke nødvendigvis et argument for at finansmarkedet er dumt. Det er et argument for at komplekse teknologier prises av mennesker og systemer som ikke alltid har tid – eller kompetanse – til å forstå den tekniske konteksten.
Samme fenomen skjedde med DeepSeek-R1 i januar 2026. Markedet solgte Nvidia fordi en kinesisk open source-modell virket billigere å trene. Det stemte på papiret, men ignorerte at billigere modeller bare betyr at etterspørselen eksploderer. Nvidia-aksjen hentet seg inn.
Hva betyr dette for KV-cache-komprimering fremover?
TurboQuant er faktisk bra for alle parter. Utviklere får raskere inferens og lavere kostnader. Sluttbrukere får raskere respons. Og minnebrikkeprodusenter får økt etterspørsel etter hvert som AI-modeller deployes bredere.
Den fotoniske brikken PRISM – som jeg dekket i mars – er et annet eksempel på KV-cache-optimalisering som faktisk øker maskinvareetterspørselen, ikke reduserer den. 944x raskere skanning betyr at du kan kjøre med mye lengre kontekster, som igjen krever mer samlet KV-cache-kapasitet.
Tre bits per verdi i stedet for 16 er ikke et signal om at minnebrikker er i ferd med å bli overflødige. Det er et signal om at AI-modeller snart kan ha kontekstvinduer på millioner av tokens til en brøkdel av kostnaden – og at alle vil bruke dem.
Markedet tapte titalls milliarder på 48 timer på en analyse de fleste med litt ML-bakgrunn ville avvist på ti minutter. Det sier mer om hvordan finansmarkedet priser teknologiaksjer enn om hva TurboQuant faktisk gjør med minneetterspørselen.
Se også gjennomgangen av TurboQuant-teknologien i sin helhet og den åpne Python-implementasjonen du kan installere og teste selv.