Jan Sverre Bauge sitter med MacBook Pro og ser på terminalen som viser MTP-ytelse på 34 tokens per sekund

MTP + TurboQuant på LLaMA.cpp – Qwen 27B til 34 tokens per sekund på MacBook

Multi-Token Prediction kombinert med TurboQuant gir Qwen 27B 34 tokens per sekund på MacBook Pro M5 Max – en økning på 40% uten ekstra kostnad.
Jan Sverre utforsker Gemma-4-31B-it-DFlash og spekulativ dekoding med DFlash-teknikken

Gemma-4-31B-it-DFlash – spekulativ dekoding for Googles åpne modell

Gemma-4-31B-it-DFlash er en ny variant av Googles Gemma 4 31B utgitt av Z Lab, med DFlash spekulativ dekoding som kan gi opptil 8x raskere inferens. Llama.cpp-støtte er under utvikling via PR #22105.
Mann i hettegenser studerer ytelsessammenligning mellom Ollama og llama.cpp på terminal-skjerm i mørkt hjemmekontor

Trenger lokal LLM-økosystemet Ollama? Kanskje ikke

Ollama er populært, men er det det beste verktøyet for lokal AI-kjøring? llama.cpp er 1,8x raskere, og alternativer som LM Studio, Jan og ramalama er modnet. Her er hva debatten handler om.
Jan Sverre inspiserer en AI-modellplan der MTP-seksjonen er merket som utilgjengelig og låst til LiteRT

Gemma 4 og MTP – Google fjernet ytelsesboost fra offentlig modell

Google bekreftet via Hugging Face at Multi-Token Prediction er fjernet fra de offentlige Gemma 4-modellene. Den fulle versjonen med MTP finnes bare i LiteRT-formatet – som har 8 000 nedlastninger mot over én million for GGUF og safetensors. DeepSeek og Qwen gjorde det ikke slik.