Jan Sverre jobber i hjemmelaben om natten med llama.cpp og Qwen 3.6 27B MTP på RTX 3090

llama.cpp b9200 + Qwen 3.6 27B MTP – slik får du Hermes Agent til å fly på RTX 3090

llama.cpp b9200 fikser MTP memory traffic overhead. Med riktig konfig på Qwen 3.6 27B mtp doblet draft acceptance rate for Hermes Agent på RTX 3090.
Jan Sverre ved skrivebordet med llama.cpp-terminaler som viser MTP-aktivert inferens

MTP merget inn i llama.cpp – nå kan alle kjøre det

PR 22673 er merget inn i llama.cpp master. MTP-støtte gir 1,9x til 2,5x raskere inferens lokalt – her er hva du trenger å vite og hvordan du aktiverer det.
Jan Sverre reiser gjennom tid omgitt av glødende tokens og ord - illustrasjon av Multi-Token Prediction og speculative decoding

Slik kan AI-modeller tidsreise – MTP og speculative decoding forklart

Hva er speculative decoding og Multi-Token Prediction (MTP)? Forklaring på hvordan AI-modeller kan generere tekst 2-3x raskere ved å forutsi tokens fremover – og hvilke modeller som har det innebygd i dag.