Jan Sverre i et serverrom med lysende GPU-racker - TurboQuant komprimerer KV-cache til 3 bits

TurboQuant – Googles nye KV-cache-algoritme gir 6x lavere minnebruk

Googles TurboQuant komprimerer KV-cachen i store språkmodeller til kun 3 bits – uten nøyakhetstap. 6 ganger lavere minnebruk og opptil 8 ganger raskere ytelse på NVIDIA H100. Presentert på ICLR 2026.