MTP + TurboQuant på LLaMA.cpp – Qwen 27B til 34 tokens per sekund på MacBook

Innhold Vis

21 tokens per sekund med LLaMA.cpp og TurboQuant – men kombiner det med Multi-Token Prediction, og plutselig er du oppe i 34. Det er en økning på 40 %, og det skjer på en vanlig MacBook Pro med M5 Max-chip og 64 GB RAM.

Prosjektet bak dette heter atomic-llama-cpp-turboquant, et community-drevet fork av LLaMA.cpp som patcher inn MTP-støtte og kombinerer det med TurboQuant KV-cache-komprimering. Resultatet er at Qwen 3.6 27B – en 27 milliarders parametersmodell – kjører raskere enn mange hadde ventet var mulig på forbrukerhardware.

Her ser jeg nærmere på hva som faktisk skjer under panseret, og hvorfor kombinasjonen av disse to teknologiene slår dem enkeltvis.

Hva er MTP og TurboQuant, og hvorfor kombinere dem?

Multi-Token Prediction (MTP) er en teknikk der modellen gjetter flere tokens fremover i stedet for å produsere én om gangen. Jeg har skrevet mer grundig om dette i forklaringsartikkelen om MTP og speculative decoding, men kortversjonen er: ved å bruke et lite «utkast-hode» som gjetter de neste 2-4 tokenene, kan hoved-modellen verifisere dem i én runde i stedet for å generere dem sekvensielt. Akseptansegraden i dette prosjektet er 90 %, noe som betyr at nesten alle gjettene er riktige.

TurboQuant er en annen sak. Det er en kvantiseringsmetode som komprimerer KV-cachen – den midlertidige minnetabellen modellen bruker for å holde kontekst – ned til 2, 3 eller 4 bits i stedet for 16. TurboQuant bruker WHT-rotert Lloyd-Max-kvantisering, noe som gir remarkabelt lite nøyaktighetstap. Med turbo3 (4,3× komprimering mot F16) frigjøres nok minnebåndbredde til at modellen kan prosessere data raskere.

Alene gir hver teknologi en gevinst. Sammen forsterker de hverandre: TurboQuant frigjør minnebåndbredde, og den ekstra kapasiteten brukes av MTP til å verifisere flertokens-gjett raskere. Summen av de to er mer enn delene.

Teknisk diagram som viser TurboQuant KV-cache-komprimering og Multi-Token Prediction som to lag som forsterker hverandre — TurboQuant frigjør minnebåndbredde, og MTP utnytter kapasiteten til flertokens-verifisering

Hva er ytelsestallene i praksis?

Tallene fra prosjektet er målte på MacBook Pro med M5 Max og 64 GB RAM:

Kun LLaMA.cpp + TurboQuant: 21 tokens per sekund
LLaMA.cpp + TurboQuant + MTP: 34 tokens per sekund

Det er 13 tokens mer per sekund – en økning på nøyaktig 62 % fra basislinjen. Og 90 % akseptanserate betyr at MTP-hodene treffer blink nesten hver gang. En dårlig akseptanserate (under 60-70 %) ville sluppet disse tallene tilbake, men 90 % er godt over det som trengs for reell gevinst.

Til sammenligning: LLaMA.cpp med offisiell MTP-beta-støtte gir opptil 2,4 ganger raskere inferens under ideelle forhold, men det er toppnivå. Her ser vi +40 % på en kombinert baseline som allerede inkluderer TurboQuant-optimering. Det er en solid gevinst oppå en allerede optimert stack.

MoE-varianten Qwen 3.6 35B-A3B er også støttet. Den bruker Mixture of Experts-arkitektur, som betyr at bare en del av parametrene er aktive per token. For den varianten melder prosjektet 24-36 % økning i tokens per sekund med turbo3 KV-cache.

Hvilke modeller støttes, og hvordan laster du dem ned?

AtomicChat har kvantisert to Qwen 3.6-varianter med MTP-hoder bygget inn i GGUF-formatet. De finnes på HuggingFace under AtomicChat/qwen-36-udt-mtp:

Qwen 3.6-27B-UDT-MTP-GGUF (tett modell, 27 milliarder parametre)
Qwen 3.6-35B-A3B-UDT-MTP-GGUF (MoE-variant, 35B total / 3B aktiv per token)

Begge er dynamic-imatrix GGUF-kvantiserte og støtter TurboQuant3 KV. «UDT» i navnene refererer til «Unified Dynamic Tokenizer». Modellene er klare for bruk med den patchede LLaMA.cpp-builden fra prosjektet.

Koden og instruksjoner finnes i atomic-llama-cpp-turboquant på GitHub. Bygger du fra source med CMake, er prosessen standard LLaMA.cpp-bygging – ingen eksotiske avhengigheter kreves.

MacBook Pro på skrivebord med terminal som viser benchmark-resultater: 21 tokens per sekund uten MTP og 34 med MTP — Terminalen lyver ikke: 21 tok/s uten MTP, 34 tok/s med – 40% raskere på samme hardware

Hvordan kjøre det – grunnleggende oppsett

Selve serveren startes med kjente LLaMA.cpp-flagg, men med noen nye tillegg for TurboQuant KV og MTP:

llama-server -m qwen3.6-27b-mtp.gguf -c 32768 -ngl 99 \
  -ctk turbo3 -ctv turbo3 -fa on

Her setter -ctk turbo3 og -ctv turbo3 KV-cache-komprimering til turbo3-nivå (4,3× komprimering). -fa on aktiverer flash attention, som Apple Silicon-brukere bør ha på. MTP-støtten aktiveres automatisk når modellen har MTP-hoder inkludert i GGUF-filen.

For å få full effekt på Apple Silicon bør du bruke Metal-backend – det er standard i LLaMA.cpp-builden på macOS, og TurboFlash flash-attention-kjernen er dedikert optimert for Metal. Prosjektet støtter også CUDA, Vulkan, HIP og CPU, så det er ikke begrenset til Mac-brukere.

Hva betyr dette for deg som kjører AI lokalt?

Dette er interessant av én enkel grunn: modellen er ikke begrenset til én konkret hardware-plattform, og forbedringen er reell på vanlig forbrukerhardware. Du trenger ikke en dedikert GPU-server for å få nytte av det.

MacBook Pro M5 Max med 64 GB RAM er ikke billig, men det er en bærbar maskin folk faktisk bruker. Qwen3.5 122B er fortsatt en sterk kandidat for lokal LLM, men Qwen 3.6 27B til 34 tokens per sekund er i et brukbart interaktivt modus – fort nok til å ha en flytende samtale uten å vente.

Til sammenligning viser MTPLX-prosjektet at Qwen3.6-27B kan komme opp i 63 tokens per sekund på M5 Max med en annen tilnærming. De to prosjektene overlapper i målsetning men ikke i metode – MTPLX bruker en egenutviklet inferensmotor, mens atomic-llama-cpp-turboquant bygger direkte på LLaMA.cpp som mange allerede bruker. Stabiliteten i en kjent codebase er en fordel for folk som vil ha noe som bare virker.

MTP-støtte i LLaMA.cpp er uansett i rask utvikling. Google fjernet MTP fra offentlige Gemma 4-modeller – men open source-communityen bygger dette inn i eksisterende modeller på egenhånd. Det er slik det pleier å gå.

Hvis du allerede kjører Qwen 3.6 lokalt og har en M-serie Mac med nok RAM, er det liten grunn til å ikke prøve denne patchede builden. Verste fall er at du bytter tilbake. Beste fall er 40 % raskere inferens uten en eneste ekstra kostnad.

MTP + TurboQuant på LLaMA.cpp – Qwen 27B til 34 tokens per sekund på MacBook

Neste

TML-Interaction-Small – Thinking Machines Labs modell for sanntids AI-samtale

Skribent

Jan Sverre Bauge

tagger

Del artikkel

Innhold Vis

Hva er MTP og TurboQuant, og hvorfor kombinere dem?

Hva er ytelsestallene i praksis?

Hvilke modeller støttes, og hvordan laster du dem ned?

Hvordan kjøre det – grunnleggende oppsett

Hva betyr dette for deg som kjører AI lokalt?

Legg igjen en kommentar Avbryt svar

Suno AI – 150 Låter Testet: Hva Funker og Hva Er Bortkastet Tid

Suno AI Copyright 2026 – Opphavsrett og Rettigheter for AI-Musikk

Jeg testet Nano Banana Pro: AI som faktisk skriver norsk i bilder

Claude AI – pris, funksjoner og norsk guide (2026)

Afroman vant – politiet krevde 4 millioner, juryen ga dem null

PewDiePie AI Council – Da Supreme Leader ble forrÅdt av sine egne

Suno AI – 150 Låter Testet: Hva Funker og Hva Er Bortkastet Tid

Suno AI Copyright 2026 – Opphavsrett og Rettigheter for AI-Musikk

Jeg testet Nano Banana Pro: AI som faktisk skriver norsk i bilder

Kaffegrut i Hagen – Slik Bruker Du Det som Gjødsel og Skadedyrbekjemper

Sterk Chili Kaffe

Stekt Kylling i Airfryer

Kaffekaramell

MTP + TurboQuant på LLaMA.cpp – Qwen 27B til 34 tokens per sekund på MacBook

Neste

Skribent

tagger

Del artikkel

Innhold Vis

Hva er MTP og TurboQuant, og hvorfor kombinere dem?

Hva er ytelsestallene i praksis?

Hvilke modeller støttes, og hvordan laster du dem ned?

Hvordan kjøre det – grunnleggende oppsett

Hva betyr dette for deg som kjører AI lokalt?

Legg igjen en kommentar Avbryt svar

Meld deg på nyhetsbrevet

Du liker kanskje denne også