Jan Sverre klemmer glødende tallblokker sammen som komprimeres fra 16-bit til 4-bit i sci-fi visning av TurboQuant vektkomprimering

TurboQuant for weights – 4-bit vektkomprimering med nær-optimal presisjon

TurboQuant-algoritmen fra Google er blitt tilpasset for modellvekter – ikke bare KV-cache. Resultatet: 4-bit kvantisering med nær-optimal presisjon, 3,2x minnebesparelse, og et 8-bit residuallag som gir null perplexity-tap.