DFlash: slik kan spekulativ dekoding gi deg opptil 6x raskere AI-inferens
DFlash fra UC San Diego bruker block diffusion og KV injection for å generere hele token-blokker parallelt – og rapporterer opptil 6x lossless speedup på Qwen3-8B. Her er hva det betyr i praksis.