TurboQuant for weights – 4-bit vektkomprimering med nær-optimal presisjon
TurboQuant-algoritmen fra Google er blitt tilpasset for modellvekter – ikke bare KV-cache. Resultatet: 4-bit kvantisering med nær-optimal presisjon, 3,2x minnebesparelse, og et 8-bit residuallag som gir null perplexity-tap.
27. mars 2026
69 visninger
4 minutter lesetid
TurboQuant – Googles nye KV-cache-algoritme gir 6x lavere minnebruk
Googles TurboQuant komprimerer KV-cachen i store språkmodeller til kun 3 bits – uten nøyakhetstap. 6 ganger lavere minnebruk og opptil 8 ganger raskere ytelse på NVIDIA H100. Presentert på ICLR 2026.