Jan Sverre jobber i hjemmelaben om natten med llama.cpp og Qwen 3.6 27B MTP på RTX 3090

llama.cpp b9200 + Qwen 3.6 27B MTP – slik får du Hermes Agent til å fly på RTX 3090

llama.cpp b9200 fikser MTP memory traffic overhead. Med riktig konfig på Qwen 3.6 27B mtp doblet draft acceptance rate for Hermes Agent på RTX 3090.
Jan Sverre Bauge sitter med MacBook Pro og ser på terminalen som viser MTP-ytelse på 34 tokens per sekund

MTP + TurboQuant på LLaMA.cpp – Qwen 27B til 34 tokens per sekund på MacBook

Multi-Token Prediction kombinert med TurboQuant gir Qwen 27B 34 tokens per sekund på MacBook Pro M5 Max – en økning på 40% uten ekstra kostnad.