Jan Sverre ser på ytelsestall fra BeeLlama DFlash på RTX 3090 - 177 tokens per sekund

Slik får du nesten 5x raskere lokal AI på én RTX 3090 – BeeLlama v0.2.0 forklart

BeeLlama v0.2.0 gir opptil 4,9x raskere tekstgenerering med Gemma 4 31B og Qwen3.6 27B på én enkelt RTX 3090 – uten ekstra maskinvare.
Jan Sverre jobber i hjemmelaben om natten med llama.cpp og Qwen 3.6 27B MTP på RTX 3090

llama.cpp b9200 + Qwen 3.6 27B MTP – slik får du Hermes Agent til å fly på RTX 3090

llama.cpp b9200 fikser MTP memory traffic overhead. Med riktig konfig på Qwen 3.6 27B mtp doblet draft acceptance rate for Hermes Agent på RTX 3090.