MTP merget inn i llama.cpp – nå kan alle kjøre det

Innhold Vis

PR 22673 er merget inn i llama.cpp master, og det betyr at multi-token prediction (MTP) nå er tilgjengelig for alle som kjører modeller lokalt. Ingen eksperimentelle byggversjoner, ingen patcher. Bare git pull og en ny flagg i kommandolinjen.

Hvis du ikke har hørt om MTP før: det er teknologien som lar en modell gjette flere tokens i én operasjon i stedet for å plodde seg gjennom dem ett og ett. Resultatet er at inferensen går raskere uten at du trenger kraftigere hardware. Jeg har forklart mekanikken i detalj tidligere – den korte versjonen er at modellen trener inn en liten «gjettefunksjon» som predikerer de neste 2-4 tokenene, mens hoveddelen verifiserer dem i én iterasjon.

Det praktiske gjennombruddet er at dette nå er offisielt innebygd i llama.cpp. Ikke et sideprosjekt, ikke en fork. Merge inn i master.

Hva er PR 22673, og hva gjør den?

PR 22673 legger til støtte for MTP-hoder direkte i llama.cpp. Implementasjonen laster MTP-hodet fra samme GGUF-fil som selve modellen – det er altså ikke nødvendig med en separat draft-modell slik speculative decoding tradisjonelt krever. MTP-hodet har sin egen context og KV-cache, og aktiveres med flagget --spec-type draft-mtp.

Akkurat nå er implementasjonen i første omgang testet og optimalisert mot to modeller: Qwen 3.6 27B (den dense varianten) og Qwen 3.6 35B-A3B (mixture-of-experts). Arkitekturelt er det ingenting i veien for at andre MTP-trente modeller vil fungere etter hvert som støtten modnes.

Diagram som viser hvordan Multi-Token Prediction predikerer flere tokens parallelt — MTP predikerer 2-4 tokens i én operasjon i stedet for ett og ett

Hva slags speedup kan du forvente?

Benchmarktallene fra PR 22673 viser 1,9x speedup på RTX 3090 – fra 22,39 tok/s til 42,45 tok/s med MTP aktivert. Med 3 draft-tokens og en steady-state akseptansegrad på rundt 75 % er potensialet 2-3x i gjennomsnitt. Minnekostnaden er omtrent 2,5 GB ekstra VRAM – under 10 % av det en typisk modell bruker.

Jeg har tidligere skrevet om TurboQuant-kombinasjonen på MacBook Pro, der MTP tok Qwen 27B fra 21 til 34 tokens per sekund – en økning på 62 % på Apple Silicon. Tallene varierer med hardware, men retningen er den samme overalt.

En ting å merke seg: prompt-processing går litt tregere med MTP aktivert, fordi det oppstår noen ekstra device-to-host-overføringer for embeddings. Det er en kjent begrensning som PR-forfatteren er tydelig på er et optimaliseringsområde fremover. Selve genereringshastigheten – det du faktisk merker i bruk – er der speedupen er.

Hvordan aktiverer du MTP i llama.cpp?

Forutsetningen er at du bruker en GGUF-fil som faktisk inneholder et MTP-hode. Vanlige kvantiseringer uten MTP-hode vil ikke profitere på flagget. Per nå er det primært AtomicChat-samlingen på HuggingFace som tilbyr MTP-GGUF-filer for Qwen 3.6-modellene.

Selve aktiveringen er enkel. Etter at du har oppdatert llama.cpp til siste master, kjører du det slik:

./llama-cli -m modellen-din-mtp.gguf --spec-type draft-mtp -n 512 -p "Din prompt her"

Flagget --spec-type draft-mtp er alt som trengs. llama.cpp laster MTP-hodet automatisk fra GGUF-filen og setter opp sin egen context og KV-cache for det.

llama.cpp terminal som viser 42 tokens per sekund med MTP aktivert — 42,45 tok/s på RTX 3090 med –spec-type draft-mtp aktivert

Hva er forskjellen fra vanlig speculative decoding?

Vanlig speculative decoding – som llama.cpp har støttet en stund – krever to separate modeller: en stor og en liten draft-modell som deler vokabular. Du trenger altså Llama 70B og Llama 8B samtidig, noe som dobler minnekravet og kompliserer oppsettet.

Med MTP er gjettefunksjonen trent direkte inn i modellens arkitektur. Det betyr én fil, ett minneavtrykk, og ingen jakt etter en kompatibel draft-modell. Gemma 4 er et godt eksempel på hva som skjer når produsenten fjerner MTP-hodet fra den offentlige modellen – du mister speedupen umiddelbart. Med Qwen 3.6 er MTP-hodet med i de offentlige GGUF-filene, og nå kan llama.cpp faktisk bruke det.

Kompatibiliteten er bred. PR-en er bygget med støtte for vision input, tensor-parallellisme, pipeline-parallellisme, og kan kjedes med andre spekulative metoder som ngram-mod. Det er ikke en halvferdig implementasjon – det er produksjonsklar kode.

Hvem bør bry seg om dette?

Alle som kjører Qwen 3.6-modeller lokalt bør oppdatere llama.cpp og bytte til en MTP-GGUF nå. Det er nærmest gratis ekstra ytelse – samme hardware, samme modell, 1,9x til 2,5x raskere output.

For andre modeller er situasjonen litt mer avventende. MTP-støtten er nå i master, men den faktiske gevinsten avhenger av at modellprodusentene trener MTP-hoder og inkluderer dem i sine GGUF-distribusjoner. Det er rimelig å forvente at DeepSeek og andre vil følge etter Qwen på dette.

Frem til da er det verdt å holde øye med HuggingFace-samlinger som spesifikt tilbyr MTP-varianter. Når modellen har hodet og llama.cpp støtter det, er én flagg det eneste som skiller deg fra dobbel hastighet.

MTP merget inn i llama.cpp – nå kan alle kjøre det

Neste

FLUX 2 over Ethernet – slik spreader du modellen på to GPUer uten NVLink

Skribent

Jan Sverre Bauge

tagger

Del artikkel

Innhold Vis

Hva er PR 22673, og hva gjør den?

Hva slags speedup kan du forvente?

Hvordan aktiverer du MTP i llama.cpp?

Hva er forskjellen fra vanlig speculative decoding?

Hvem bør bry seg om dette?

Legg igjen en kommentar Avbryt svar

Suno AI – 150 Låter Testet: Hva Funker og Hva Er Bortkastet Tid

Claude AI – pris, funksjoner og norsk guide (2026)

Suno AI Copyright 2026 – Opphavsrett og Rettigheter for AI-Musikk

Ollama Guide – Kjør AI Gratis og Lokalt på Din Egen PC (2026)

Glutenfri sitronkake – min beste oppskrift

Amazon droppet Sam Altman-filmen etter 50 milliarder til OpenAI – nå vil ingen ha den

Suno AI – 150 Låter Testet: Hva Funker og Hva Er Bortkastet Tid

Claude AI – pris, funksjoner og norsk guide (2026)

Suno AI Copyright 2026 – Opphavsrett og Rettigheter for AI-Musikk

Glutenfri sitronkake – min beste oppskrift

Kaffegrut i Hagen – Slik Bruker Du Det som Gjødsel og Skadedyrbekjemper

Sterk Chili Kaffe

Stekt Kylling i Airfryer

MTP merget inn i llama.cpp – nå kan alle kjøre det

Neste

Skribent

tagger

Del artikkel

Innhold Vis

Hva er PR 22673, og hva gjør den?

Hva slags speedup kan du forvente?

Hvordan aktiverer du MTP i llama.cpp?

Hva er forskjellen fra vanlig speculative decoding?

Hvem bør bry seg om dette?

Legg igjen en kommentar Avbryt svar

Meld deg på nyhetsbrevet

Du liker kanskje denne også