Jan Sverre Bauge sitter med MacBook Pro og ser på terminalen som viser MTP-ytelse på 34 tokens per sekund

MTP + TurboQuant på LLaMA.cpp – Qwen 27B til 34 tokens per sekund på MacBook

Multi-Token Prediction kombinert med TurboQuant gir Qwen 27B 34 tokens per sekund på MacBook Pro M5 Max – en økning på 40% uten ekstra kostnad.
Jan Sverre klemmer glødende tallblokker sammen som komprimeres fra 16-bit til 4-bit i sci-fi visning av TurboQuant vektkomprimering

TurboQuant for weights – 4-bit vektkomprimering med nær-optimal presisjon

TurboQuant-algoritmen fra Google er blitt tilpasset for modellvekter – ikke bare KV-cache. Resultatet: 4-bit kvantisering med nær-optimal presisjon, 3,2x minnebesparelse, og et 8-bit residuallag som gir null perplexity-tap.
Jan Sverre i et serverrom med lysende GPU-racker - TurboQuant komprimerer KV-cache til 3 bits

TurboQuant – Googles nye KV-cache-algoritme gir 6x lavere minnebruk

Googles TurboQuant komprimerer KV-cachen i store språkmodeller til kun 3 bits – uten nøyakhetstap. 6 ganger lavere minnebruk og opptil 8 ganger raskere ytelse på NVIDIA H100. Presentert på ICLR 2026.