Jan Sverre ser på ytelsestall fra BeeLlama DFlash på RTX 3090 - 177 tokens per sekund

Slik får du nesten 5x raskere lokal AI på én RTX 3090 – BeeLlama v0.2.0 forklart

BeeLlama v0.2.0 gir opptil 4,9x raskere tekstgenerering med Gemma 4 31B og Qwen3.6 27B på én enkelt RTX 3090 – uten ekstra maskinvare.
Jan Sverre ved skrivebordet med llama.cpp-terminaler som viser MTP-aktivert inferens

MTP merget inn i llama.cpp – nå kan alle kjøre det

PR 22673 er merget inn i llama.cpp master. MTP-støtte gir 1,9x til 2,5x raskere inferens lokalt – her er hva du trenger å vite og hvordan du aktiverer det.
Jan Sverre Bauge sitter med MacBook Pro og ser på terminalen som viser MTP-ytelse på 34 tokens per sekund

MTP + TurboQuant på LLaMA.cpp – Qwen 27B til 34 tokens per sekund på MacBook

Multi-Token Prediction kombinert med TurboQuant gir Qwen 27B 34 tokens per sekund på MacBook Pro M5 Max – en økning på 40% uten ekstra kostnad.
Jan Sverre holder et glødende kinesisk AI-øye og studerer Qwen 3.6 Plus Preview med skeptisk nysgjerrighet

Qwen 3.6 på OpenRouter – 1 million token kontekst og gratis preview

Qwen 3.6 Plus Preview dukket opp på OpenRouter 30. mars 2026 uten noen offisiell kunngjøring fra Alibaba. Modellen har 1 million token kontekstvindu, innebygd reasoning og er gratis tilgjengelig akkurat nå – men med forbehold om kinesisk datainnsamling.