DFlash: slik kan spekulativ dekoding gi opptil 6x raskere AI-inferens

Innhold Vis

Hva om AI-modellen din kunne generere seks ganger så mange tokens per sekund – uten at outputen ble et eneste hakk dårligere? Det er ikke sci-fi lenger. Forskere ved UC San Diego har lansert DFlash, en ny metode for spekulativ dekoding som kaster ut den klassiske autoregressjonsflaskehalsen og erstatter den med noe smartere: hele blokker med tokens som genereres på én gang.

Spekulativ dekoding er ingen ny idé. Konseptet er å la en liten, rask «drafter»-modell gjette de neste tokenene, mens den store, tunge modellen bare verifiserer gjettene i parallell. Problemet har alltid vært drafter-kvaliteten – jo bedre drafteren gjetter, jo sjeldnere må den store modellen gjøre tung re-generering. DFlash angriper akkurat denne svakheten, og resultatene er verdt å ta en titt på.

Jeg har gått gjennom artikkelen fra MarktechPost og det originale paper-sammendraget. Her er hva jeg mener er verdt å forstå om DFlash – og for hvem det egentlig er relevant.

Hva gjør DFlash annerledes enn vanlig spekulativ dekoding?

Klassisk spekulativ dekoding bruker autoregressiv drafting – drafteren genererer token for token, én om gangen, akkurat som den store modellen. Det betyr at drafterens latens skalerer lineært med antall tokens den gjetter. Vil den gjette åtte tokens, må den kjøre åtte ganger.

DFlash bytter ut den autoregresjonen med en block diffusion model. I stedet for å generere én token av gangen, denoiser drafteren en hel maskert token-blokk i ett enkelt forward pass. Det betyr at du kan be drafteren om å gjette åtte eller tolv tokens – og den bruker nøyaktig like lang tid uansett blokklengde. Prisen er kun én forward pass i drafteren, uavhengig av blokklengde.

Den andre store nyheten er det de kaller KV injection. Her injiseres hidden states fra den store målmodellen inn i nøkkel/verdi-projeksjoner på alle lag i drafteren – ikke bare i input-embeddings slik EAGLE-3 gjør. Resultatet er at drafteren hele tiden er «informert» av hva den store modellen egentlig tenker. Det øker akseptanselengden dramatisk og gir mer treffsikre gjetninger.

Visualisering av block diffusion kontra autoregressiv token-generering - parallelle datastrømmer mot sekvensielle — Block diffusion behandler hele token-blokker parallelt, mens autoregressiv drafting må prosessere token for token

Hva sier tallene – og hva betyr de i praksis?

På Qwen3-8B rapporterer DFlash-paperet (arXiv 2602.06036) et gjennomsnittlig lossless speedup på 4,86x, med en topp på 6,08x på MATH-500. Dette er slike tall som gjerne ser bedre ut på papir enn i produksjon, og det bør du ta med deg. Speedup er sterkt avhengig av modellen, oppgavetypen, temperatur og hardware – og det er i lav-temperatur greedy decoding-modus tallene er sterkest.

For serveringsscenarioer på NVIDIA Blackwell med gpt-oss-120B rapporterer NVIDIA opp til 15x høyere throughput ved 500-600 tokens per sekund per bruker. Det høres dramatisk ut, men konteksten er viktig: dette er throughput ved svært høy interaktivitet og lavt antall parallelle brukere. Gevinsten avtar med høyere concurrency. Det er altså et verktøy for spesifikke bruksmønstre, ikke et universalmiddel.

Mer jordnær er sammenligningen mot EAGLE-3 på de samme Blackwell-benchmarkene: der EAGLE-3 lander på rundt 1,7x speedup, ligger DFlash på rundt 2,3x. Forspranget er reelt, men beskjedent – og dette er den typen tall som er mer representativt for hva man kan forvente i et faktisk produksjonsoppsett enn 15x-toppene.

Hvem kan faktisk bruke DFlash i dag?

DFlash er ikke et sky-API du kobler seg til og betaler per token. Det er en åpen metode med ferdige checkpoints på Hugging Face og åpen kildekode, og den er bygget inn i flere inferens-rammeverk:

vLLM – bytt ut EAGLE-3-konfigen med én linje: --speculative-config '{"method": "dflash", ...}'
SGLang – støttet (rapportert opptil 5,1x på Qwen3-8B)
TensorRT-LLM – brukt i NVIDIAs egne Blackwell-benchmarks
Transformers (Hugging Face) – for Qwen3 og LLaMA-3.1

Det betyr at de som kjører LLM-er i produksjon med vLLM eller SGLang faktisk kan ta dette i bruk ganske raskt. For deg som kjører lokale modeller hjemme med RTX 4090 og llama.cpp: foreløpig er det ikke llama.cpp-støtte, men erfaringen fra EAGLE-3 og MTP-integrasjoner er at slike ting kommer til populære open source-verktøy i løpet av måneder, ikke år. Se gjerne llama.cpp MTP-støtte i beta som viser akkurat dette mønsteret.

NVIDIA Blackwell GPU-rack i et datasenter med høy gjennomstrømning for LLM-inferens — På NVIDIA Blackwell rapporterer NVIDIA opp til 15x høyere throughput med DFlash ved høy interaktivitet – men gevinsten er størst ved lavt antall parallelle brukere

Hva er forskjellen på DFlash og MTP/EAGLE som jeg har skrevet om før?

Det er et naturlig spørsmål hvis du har fulgt utviklingen. I artikkelen om MTP og spekulativ dekoding gikk jeg gjennom grunnprinsippene: spekulativ dekoding handler om å gjette og verifisere, mens Multi-Token Prediction (MTP) trener selve modellen til å forutsi flere tokens i ett.

DFlash er verken MTP eller en klassisk drafter – det er noe mellom. Drafteren er ikke en slanket versjon av målmodellen, men en diffusjonsmodell som er trent spesifikt for blokk-gjetting. Den bruker diffusjonsprinsippet (denoising av maskede tokens) som draft-mekanisme, i stedet for standard autoregressjon. Og KV-injeksjonen gjør at den «ser» hva den store modellen faktisk prosesserer i sanntid.

Sammenlignet med Mercury 2 sin reasoning diffusion-modell er det en viktig distinksjon: Mercury 2 ER en diffusjonsmodell gjennom og gjennom. DFlash bruker diffusjon bare i drafteren – målmodellen er en vanlig autoregressiv LLM. Det er en hybrid-tilnærming, og den gir fordelen av lossless output fordi verifiseringslaget fortsatt er autoregressivt.

Hva er faktisk interessant med DFlash på lengre sikt?

Det som slår meg som mest interessant her er ikke speedup-tallene isolert sett. Det er at DFlash-teamet har vist at drafterens dybde kan økes uten å øke latensen, fordi hele blokken koster det samme uansett. Det bryter med en klassisk trade-off i spekulativ dekoding der dypere draftermodeller koster mer per steg og spiser opp sine egne gevinster.

I praksis betyr det at man kan ha en mer avansert drafter – og dermed høyere akseptanserater – uten at fordelene spises opp av drafterens egne compute-kostnader. Det er en elegant løsning på et problem som har begrenset spekulativ dekoding siden teknikken ble populær med EAGLE og EAGLE-2.

Metoden er demonstrert på blant annet Qwen3-8B, LLaMA-3.1 og Gemma 4 31B, og kildekoden er åpen. Det gjør det lett å eksperimentere og bygge videre på uten å vente på at noen andre skal integrere det.

Hva tenker du? Er dette en teknikk du har mulighet til å ta i bruk i et eksisterende vLLM-oppsett, eller venter du på at det dukker opp i lokale verktøy som llama.cpp eller Ollama?

Ofte stilte spørsmål

Hva er DFlash spekulativ dekoding?

DFlash er en metode for raskere LLM-inferens fra UC San Diego. En liten diffusjonsmodell gjetter hele blokker av tokens i parallell, mens en stor målmodell verifiserer gjettene. Resultatet er opptil 6x lossless speedup på Qwen3-8B uten tap av output-kvalitet.

Støtter DFlash vLLM og SGLang?

Ja. DFlash støtter vLLM, SGLang og TensorRT-LLM (og en Transformers-backend for Qwen3 og LLaMA-3.1). For vLLM kan du bytte inn DFlash via --speculative-config-flagget i stedet for EAGLE-3. Ferdige checkpoints ligger på Hugging Face.

Hva er forskjellen mellom DFlash og EAGLE-3?

EAGLE-3 bruker autoregressiv drafting – én token av gangen. DFlash bruker block diffusion og denoiser hele token-blokker i ett forward pass. DFlash injiserer også target-hidden states i alle drafter-lag (KV injection), ikke bare i input-embeddings slik EAGLE-3 gjør. Resultatet er høyere akseptanselengde per draft-steg.

Fungerer DFlash på lokale modeller som llama.cpp?

Per juni 2026 er det ikke llama.cpp-støtte for DFlash. Metoden er tilgjengelig via vLLM, SGLang og TensorRT-LLM. Lokale verktøy har en tendens til å adoptere slike teknikker etter noen måneder, som man så med MTP-støtten i llama.cpp.