PR 22673 er merget inn i llama.cpp master, og det betyr at multi-token prediction (MTP) nå er tilgjengelig for alle som kjører modeller lokalt. Ingen eksperimentelle byggversjoner, ingen patcher. Bare git pull og en ny flagg i kommandolinjen.

Hvis du ikke har hørt om MTP før: det er teknologien som lar en modell gjette flere tokens i én operasjon i stedet for å plodde seg gjennom dem ett og ett. Resultatet er at inferensen går raskere uten at du trenger kraftigere hardware. Jeg har forklart mekanikken i detalj tidligere – den korte versjonen er at modellen trener inn en liten «gjettefunksjon» som predikerer de neste 2-4 tokenene, mens hoveddelen verifiserer dem i én iterasjon.

Det praktiske gjennombruddet er at dette nå er offisielt innebygd i llama.cpp. Ikke et sideprosjekt, ikke en fork. Merge inn i master.

Hva er PR 22673, og hva gjør den?

PR 22673 legger til støtte for MTP-hoder direkte i llama.cpp. Implementasjonen laster MTP-hodet fra samme GGUF-fil som selve modellen – det er altså ikke nødvendig med en separat draft-modell slik speculative decoding tradisjonelt krever. MTP-hodet har sin egen context og KV-cache, og aktiveres med flagget --spec-type draft-mtp.

Akkurat nå er implementasjonen i første omgang testet og optimalisert mot to modeller: Qwen 3.6 27B (den dense varianten) og Qwen 3.6 35B-A3B (mixture-of-experts). Arkitekturelt er det ingenting i veien for at andre MTP-trente modeller vil fungere etter hvert som støtten modnes.

Diagram som viser hvordan Multi-Token Prediction predikerer flere tokens parallelt
MTP predikerer 2-4 tokens i én operasjon i stedet for ett og ett

Hva slags speedup kan du forvente?

Benchmarktallene fra PR 22673 viser 1,9x speedup på RTX 3090 – fra 22,39 tok/s til 42,45 tok/s med MTP aktivert. Med 3 draft-tokens og en steady-state akseptansegrad på rundt 75 % er potensialet 2-3x i gjennomsnitt. Minnekostnaden er omtrent 2,5 GB ekstra VRAM – under 10 % av det en typisk modell bruker.

Jeg har tidligere skrevet om TurboQuant-kombinasjonen på MacBook Pro, der MTP tok Qwen 27B fra 21 til 34 tokens per sekund – en økning på 62 % på Apple Silicon. Tallene varierer med hardware, men retningen er den samme overalt.

En ting å merke seg: prompt-processing går litt tregere med MTP aktivert, fordi det oppstår noen ekstra device-to-host-overføringer for embeddings. Det er en kjent begrensning som PR-forfatteren er tydelig på er et optimaliseringsområde fremover. Selve genereringshastigheten – det du faktisk merker i bruk – er der speedupen er.

Hvordan aktiverer du MTP i llama.cpp?

Forutsetningen er at du bruker en GGUF-fil som faktisk inneholder et MTP-hode. Vanlige kvantiseringer uten MTP-hode vil ikke profitere på flagget. Per nå er det primært AtomicChat-samlingen på HuggingFace som tilbyr MTP-GGUF-filer for Qwen 3.6-modellene.

Selve aktiveringen er enkel. Etter at du har oppdatert llama.cpp til siste master, kjører du det slik:

./llama-cli -m modellen-din-mtp.gguf --spec-type draft-mtp -n 512 -p "Din prompt her"

Flagget --spec-type draft-mtp er alt som trengs. llama.cpp laster MTP-hodet automatisk fra GGUF-filen og setter opp sin egen context og KV-cache for det.

llama.cpp terminal som viser 42 tokens per sekund med MTP aktivert
42,45 tok/s på RTX 3090 med –spec-type draft-mtp aktivert

Hva er forskjellen fra vanlig speculative decoding?

Vanlig speculative decoding – som llama.cpp har støttet en stund – krever to separate modeller: en stor og en liten draft-modell som deler vokabular. Du trenger altså Llama 70B og Llama 8B samtidig, noe som dobler minnekravet og kompliserer oppsettet.

Med MTP er gjettefunksjonen trent direkte inn i modellens arkitektur. Det betyr én fil, ett minneavtrykk, og ingen jakt etter en kompatibel draft-modell. Gemma 4 er et godt eksempel på hva som skjer når produsenten fjerner MTP-hodet fra den offentlige modellen – du mister speedupen umiddelbart. Med Qwen 3.6 er MTP-hodet med i de offentlige GGUF-filene, og nå kan llama.cpp faktisk bruke det.

Kompatibiliteten er bred. PR-en er bygget med støtte for vision input, tensor-parallellisme, pipeline-parallellisme, og kan kjedes med andre spekulative metoder som ngram-mod. Det er ikke en halvferdig implementasjon – det er produksjonsklar kode.

Hvem bør bry seg om dette?

Alle som kjører Qwen 3.6-modeller lokalt bør oppdatere llama.cpp og bytte til en MTP-GGUF nå. Det er nærmest gratis ekstra ytelse – samme hardware, samme modell, 1,9x til 2,5x raskere output.

For andre modeller er situasjonen litt mer avventende. MTP-støtten er nå i master, men den faktiske gevinsten avhenger av at modellprodusentene trener MTP-hoder og inkluderer dem i sine GGUF-distribusjoner. Det er rimelig å forvente at DeepSeek og andre vil følge etter Qwen på dette.

Frem til da er det verdt å holde øye med HuggingFace-samlinger som spesifikt tilbyr MTP-varianter. Når modellen har hodet og llama.cpp støtter det, er én flagg det eneste som skiller deg fra dobbel hastighet.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *

Meld deg på nyhetsbrevet

Få oppdateringer om AI nyhetene rett i inboxen!

Du liker kanskje denne også
Jan Sverre arbeider med Suno AI musikk-generering på datamaskinen, kreativt workspace med hodetelefoner

Suno AI – 150 Låter Testet: Hva Funker og Hva Er Bortkastet Tid

Jeg testet 150 Suno-låter og fant tydelige mønstre. Her er hva som faktisk gir kvalitet, og hva som bare kaster bort tid.
Jan Sverre med headphones og lydmikser i boardroom-møte med forvirrede executives

Suno AI Copyright 2026 – Opphavsrett og Rettigheter for AI-Musikk

Kan du tjene penger på Suno-musikk? Her er en praktisk gjennomgang av rettigheter, risiko og hva du bør avklare før publisering.
Jan Sverre styrer et digitalt kontrollpanel omgitt av Claude AI-symboler og glødende lysstriper i et mørkt rom

Claude AI – pris, funksjoner og norsk guide (2026)

Alt om Claude AI i 2026 – priser i norske kroner, Claude Pro vs Max, Claude Code, og ærlig sammenligning med ChatGPT. Komplett norsk guide fra en som bruker Claude daglig.
Jan Sverre riding a dinosaur in safari outfit, photorealistic AI-generated image demonstrating Nano Banana Pro capabilities

Jeg testet Nano Banana Pro: AI som faktisk skriver norsk i bilder

Endelig! En AI som kan generere norsk tekst i bilder med 94% nøyaktighet. Jeg testet Nano Banana Pro grundig – her er resultatene.