Innhold Vis
TurboQuant er Googles komprimeringsalgoritme som kutter KV-cache-minne med 6x og øker inferenshastigheten med 8x – uten ett prosents nøyakhetstap. Den ble lansert 25. mars 2026 og presentert på ICLR 2026, og kombinerer to separate algoritmer fra Google Research: PolarQuant og QJL (Quantized Johnson-Lindenstrauss).
Det finnes mange AI-nyheter som høres imponerende ut men som ikke betyr noe for deg i praksis. TurboQuant er ikke en av dem. Dette er grunnleggende infrastruktur som påvirker alle som bruker AI – enten du kjører lokale modeller, bruker API-tjenester, eller bare lurte på hvorfor ChatGPT av og til svarer saktere enn forventet.
I denne artikkelen tar jeg deg gjennom alt du trenger å forstå om TurboQuant – fra grunnleggende konsepter til hva det faktisk betyr for deg som bruker. Ingen akademisk sjargong uten forklaring. Løftet.
Hva er KV-cache – og hvorfor er det problemet TurboQuant løser?
Tenk på det slik: Når en AI-modell leser gjennom en lang samtale, bruker den enormt mye tid og ressurser på å «forstå» alle ordene om igjen. Og igjen. Og igjen – for hvert nye ord den genererer.
KV-cache (key-value cache) er løsningen på dette. Modellen lager en «mappe» for hvert ord eller begrep den leser. Mappen har en label (key) som sier hva den inneholder, og selve innholdet (value) – den matematiske representasjonen av hva modellen «tenker» om det ordet i kontekst. Neste gang modellen trenger å referere til det samme stedet i samtalen, henter den mappen i stedet for å beregne alt på nytt.
Effektivt? Absolutt. Men det har én stor ulempe: mappene spiser minne. Mye minne. Og jo lengre samtalen er, jo flere mapper, jo mer minne forsvinner.
Ta Claude 3.7 som eksempel – modellen støtter 200 000 tokens kontekstvindu. Eller Gemini 1.5 Pro med 1 million tokens. En KV-cache som holder oversikt over en hel roman av tekst kan fort bli enormt stor. For de som kjører AI i produksjon – med tusenvis av samtidige brukere – er dette en konkret og kostbar flaskehals. For deg som kjører lokale AI-modeller, setter det et hardt tak på hva du kan kjøre.
TurboQuant angriper akkurat dette.
Hva er PolarQuant – og hva er egentlig nytt?
Standardmåten å komprimere data på er omtrent som et veikart. Hvis du vil forklare noen veien fra Oslo til Bergen, gir du trinnvise instruksjoner: «gå 3 blokker øst, deretter 4 blokker nord, sving til venstre ved kirken…» Det er kartesiske koordinater – du beskriver posisjoner ved hjelp av x- og y-akser.
PolarQuant gjør noe annet. I stedet for steg-for-steg veibeskrivelse, peker du bare rett på bygningen og sier «500 meter i den retningen.» Det er polarkoordinater – du beskriver retning og avstand direkte, ikke detaljerte enkelt-steg.
Teknisk sett: PolarQuant konverterer vektorene i KV-cachen fra kartesiske koordinater til polarkoordinater (radius og vinkel). Mønsteret av vinkler som oppstår er sterkt konsentrert og forutsigbart – noe som gjør at en standard høykvalitetskompressor kan anvendes per del av vektoren, individuelt, uten den dyre normaliseringsprosessen som ellers kreves.
Hva betyr det? Minneoverheadet forsvinner. Den tunge databearbeidingen som ellers var nødvendig – borte. Samme presisjon, langt mindre ressursbruk.
PolarQuant er et selvstendig bidrag fra Google Research, presentert på AISTATS 2026. Men alene er det bare halvparten av løsningen.
Hva er QJL – og hvorfor betyr 1 ekstra bit så mye?
PolarQuant komprimerer bra. Men enhver komprimering innebærer litt informasjonstap – og det tapet akkumuleres over lange kontekster. Litt feil her, litt feil der, og etter hvert begynner svarene å bli unøyaktige.
QJL (Quantized Johnson-Lindenstrauss) er feilkorrektoren som løser akkurat dette. Og den gjør det med bare 1 ekstra bit per verdi.
Johnson-Lindenstrauss-transformasjonen er en matematisk teknikk som bevarer avstandene mellom datapunkter selv når du reduserer dimensjonalitet. QJL bruker denne transformasjonen til å redusere hver vektorverdi til en enkelt bit – +1 eller -1. Det høres vanvittig aggressivt ut. Men kombinert med en spesiell upartisk estimator sørger QJL for at oppmerksomhetsberegningene i modellen (selve kjernen i transformer-arkitekturen) opprettholdes med full presisjon.
Poenget er dette: QJL er feilsjekkeren som gjør at PolarQuants komprimering ikke fører til nøyakhetstap. Én ekstra bit eliminerer alle kompresjonsfeiler. Derfor kan Google si «null nøyakhetstap» og mene det. Det er ikke et markedsføringspåstand – det er matematisk bevist at algoritmen opererer nær de informasjonsteoretiske grensene for hva som er fysisk mulig å oppnå med komprimering.
Hva sier tallene?
Google testet TurboQuant på Llama-3.1-8B-Instruct, Gemma og Mistral – kjørende på Nvidia H100-akseleratorer. Benchmarkene inkluderte LongBench, Needle In A Haystack, ZeroSCROLLS, RULER og L-Eval. Det er en bred dekning av spørsmål-svar, kodegenerering og oppsummeringsoppgaver.
Resultatene ifølge Google Research:
- Minst 6 ganger reduksjon i KV-cache-minnebruk – uten nøyakhetstap
- Opptil 8 ganger raskere ytelse med 4-bits komprimering på H100 GPU sammenlignet med ukomprimert 32-bits
- Ingen behov for ny trening eller finjustering av modellen
- Negligibel overhead under kjøring
Jeg er vanligvis skeptisk til benchmarks. Det er altfor lett å velge tester som viser akkurat det du vil vise – som jeg har skrevet om tidligere. Men her er det to ting som skiller TurboQuant fra vanlig benchmark-markedsføring:
Én: Algoritmene (PolarQuant og QJL) er separate, fagfellevurderte bidrag presentert på AISTATS 2026 og ICLR 2026. Ikke intern Google-forskning som aldri har vært gjennom ekstern gjennomgang.
To: «Null nøyakhetstap» er ikke en påstand om at det er bra nok – det er et matematisk bevisbart resultat fra QJL-estimatoren. Det er fundamentalt annerledes fra «nesten ingen tap» som de fleste kvantiseringsmetoder faktisk leverer.
Hva betyr TurboQuant for deg som bruker AI?
La oss snakke om det som faktisk betyr noe for deg – ikke abstraksjoner om GPU-minne og H100-akseleratorer.
Billigere API-kall. En stor del av kostnaden ved å kjøre LLM-er i produksjon er inference-kostnad – hva det koster å kjøre modellen for hvert svar. Lavere minnebruk betyr mer effektiv utnyttelse av GPU, noe som betyr lavere kostnad per spørring. Anslag peker mot ~50% kostnadsreduksjon for inference. Det er ikke uvesentlig når du snakker om selskaper som kjører millioner av spørringer daglig – og det filtrerer til slutt ned til hva du betaler for API-tilgang.
Lengre kontekstvinduer på samme hardware. Hvis 6x lavere minnebruk betyr at det som før krevde hele GPU-minnet nå bare krever en sjettedel, kan de samme GPU-ene serve langt lengre samtaler. Det er én av grunnene til at vi har sett kontekstvinduene eksplodere de siste par årene – bedre komprimering gjør det mulig uten proporsjonalt høyere kostnad.
Bedre agenter. AI-agenter som kjører komplekse oppgaver over lang tid er ekstremt KV-cache-intensive. Agenten holder styr på hele arbeidshistorikken, mellomresultater, og instruksjonene – alt i kontekstvinduet. TurboQuant gjør det mulig å kjøre disse agentene lengre, på mer avanserte oppgaver, uten at kostnadene løper løpsk.
Og for deg som bruker ChatGPT, Claude eller Gemini daglig? Du vil sannsynligvis ikke merke noe direkte. Men du vil merke det indirekte, over tid – raskere svar i lange samtaler, billigere abonnementer, og AI-tjenester som faktisk holder konteksten over hele arbeidsøkter i stedet for å «glemme» starten av samtalen.
Hva betyr det for lokal AI?
Her blir det interessant for alle oss som har investert i lokale oppsett.
Den originale TurboQuant-algoritmen er allerede tilgjengelig i llama.cpp for KV-cache-komprimering. Det betyr at du kan aktivere den nå, i dag, hvis du kjører modeller lokalt via Ollama eller direkte med llama.cpp. 6x lavere minnebruk for KV-cachen er ikke en fremtidig ting – det er noe du kan teste i helgen.
Men det stopper ikke der. Community-miljøet rundt TurboQuant har allerede utvidet algoritmens prinsipper til selve modellvektene – ikke bare cachen. Den tilnærmingen kombinert med KV-cache-komprimering gir en kraftig duo:
- TurboQuant for KV-cache: 6x lavere minnebruk under kjøring
- TurboQuant for vekter: 3,2x lavere minnebruk for selve modellen
- Kombinert: Du kan potensielt kjøre modeller som krevde 48 GB VRAM på hardware med 8-10 GB
Har du en RTX 4090 med 24 GB VRAM? 6x bedre KV-cache-håndtering betyr at du kan kjøre kontekster som er 6 ganger lengre på samme hardware, eller serve 6 ganger så mange samtidige agenter. Det er reell endring for alle som eksperimenterer med lokale oppsett.
Det er verdt å nevne at PRISM – den fotoniske chipen som erstatter KV-cache-skanning med lys og gir 944x raskere enn GPU – angriper det samme problemet fra hardware-siden. TurboQuant er software. PRISM er hardware. De er ikke konkurrerende løsninger, de er komplementære – og begge peker på at KV-cache er bransjen erkjenner som det neste store optimeringsområdet.
Hva betyr det at Google publiserer dette åpent?
Det er faktisk noe verdt å stoppe opp ved.
I 2017 publiserte Google-forskere «Attention is All You Need» – transformer-arkitekturen som er fundamentet for alle moderne språkmodeller. GPT, Claude, Gemini – alle bygget på det papiret. Google ga det bort, og konkurrentene (OpenAI, Anthropic) brukte det til å bygge produkter som nå konkurrerer direkte med Google.
TurboQuant følger det samme mønsteret. Google publiserer på AISTATS og ICLR, gjør metodene tilgjengelige, og lar industrien absorbere og implementere dem. For de som er skeptiske til Big Tech generelt: dette er faktisk den typen atferd som løfter hele feltet, ikke bare Google selv.
Og det sier noe om hvor Google er strategisk: de tror ikke at komprimeringsalgoritmer er det de skal tjene penger på. De tjener penger på at AI-bruk generelt øker – og bedre infrastruktur for hele bransjen gjør det. Det er en annen logikk enn for eksempel OpenAI, som holder sine beste modeller bak betalte API-er.
Jeg finner det interessant at transformer-arkitekturen som hele bransjen er bygget på kom fra Google, og at den neste store infrastrukturforbedringen kanskje også gjør det. Det er ikke tilfeldig – det er et mønster av åpen forskning som faktisk virker.
Er TurboQuant tilgjengelig nå?
Delvis. Og avhenger av hva du vil gjøre.
KV-cache-komprimering via llama.cpp: Tilgjengelig nå. TurboQuant-støtten er allerede merget inn. Kjører du modeller lokalt via Ollama, kan du aktivere dette allerede.
Offisielle Google-integrasjoner: Per lansering er TurboQuant et forskningsbidrag, ikke en «last ned og installer»-pakke fra Google direkte. Kodebase og papirer er tilgjengelige, men integrasjon i Gemini-produkter og Google Cloud AI er ikke annonsert med konkrete datoer.
Tredjepartsimplementasjoner: Community-miljøet er allerede i gang. TurboQuant for vektkomprimering finnes som åpen kildekode – se min artikkel om 4-bit vektkomprimering her. Det er litt tidlig for produksjonsbruk, men interessant for eksperimentering.
Python-pakke: Det finnes nå en open source Python-implementasjon av TurboQuant som du kan installere via pip og teste selv. Laveste terskel for å prøve det ut.
Det klassiske mønsteret for slike forskningsbidrag er: papir → open source-implementasjoner → integrasjon i Hugging Face/llama.cpp → bredt tilgjengelig. Vi er allerede et godt stykke inn i den prosessen. Innen utgangen av 2026 er det rimelig å forvente at TurboQuant-komprimering er standard i de fleste lokale AI-rammeverk.
Og hva skjedde da TurboQuant ble annonsert? Chip-aksjene stupte – men som jeg argumenterer der, tar markedet feil. Jevons paradoks sier at billigere ressurser fører til mer bruk, ikke mindre.
Det er den typen forskning som ikke lager store AI-overskrifter – «Google lanserer ChatGPT-konkurrent» er det som selger klikk. Men TurboQuant er, stille og rolig, en av de viktigste tekniske utviklingene i AI-infrastruktur de siste par årene. 6x minnereduksjon, 8x hastighetsøkning, null nøyakhetstap. Det er vanskelig å forbedre på det.
Vil du prøve selv? Les TurboQuant Python – open source implementasjon du kan installere nå.
Hva betyr dette for markedet? Les TurboQuant senket chip-aksjene – men markedet tar feil.
1 kommentar