llama.cpp b9200 + Qwen 3.6 27B MTP – slik får du Hermes Agent til å fly på RTX 3090
llama.cpp b9200 fikser MTP memory traffic overhead. Med riktig konfig på Qwen 3.6 27B mtp doblet draft acceptance rate for Hermes Agent på RTX 3090.
18. mai 2026
27 visninger
5 minutter lesetid
MTP merget inn i llama.cpp – nå kan alle kjøre det
PR 22673 er merget inn i llama.cpp master. MTP-støtte gir 1,9x til 2,5x raskere inferens lokalt – her er hva du trenger å vite og hvordan du aktiverer det.
18. mai 2026
37 visninger
3 minutter lesetid
Slik kan AI-modeller tidsreise – MTP og speculative decoding forklart
Hva er speculative decoding og Multi-Token Prediction (MTP)? Forklaring på hvordan AI-modeller kan generere tekst 2-3x raskere ved å forutsi tokens fremover – og hvilke modeller som har det innebygd i dag.