Slik får du nesten 5x raskere lokal AI på én RTX 3090 – BeeLlama v0.2.0 forklart
BeeLlama v0.2.0 gir opptil 4,9x raskere tekstgenerering med Gemma 4 31B og Qwen3.6 27B på én enkelt RTX 3090 – uten ekstra maskinvare.
27. mai 2026
50 visninger
5 minutter lesetid
Gemma-4-31B-it-DFlash – spekulativ dekoding for Googles åpne modell
Gemma-4-31B-it-DFlash er en ny variant av Googles Gemma 4 31B utgitt av Z Lab, med DFlash spekulativ dekoding som kan gi opptil 8x raskere inferens. Llama.cpp-støtte er under utvikling via PR #22105.