DeepSeek V4 Flash lokalt på fire RTX 2080 Ti – 255 tokens per sekund for under 25 000 kr

Innhold Vis

Hva koster det å kjøre en 284 milliarder parametere stor AI-modell lokalt – uten H100 og uten hundretusenkroners hardware-budsjett? Svaret er overraskende: Under 25 000 kroner og fire brukte RTX 2080 Ti-er fra 2018.

Et ingeniørteam har publisert detaljene rundt et hjemmebygd oppsett som klarer å kjøre DeepSeek V4 Flash – en Mixture of Experts-modell med 284 milliarder totale parametere og 13 milliarder aktive parametere – på forbrukerhardware fra for åtte år siden. Resultatet: 255 prefill tokens per sekund.

Det er ikke H100-hastigheter. Men det er nok til å drive seriøs inferens, og det koster en brøkdel. La oss se på hva de faktisk bygde og hvordan de fikk det til å fungere.

Hva er oppsettet – fire RTX 2080 Ti til under 25 000 kr?

Kjernen i oppsettet er fire Nvidia RTX 2080 Ti-er – en GPU som ble lansert i 2018 og lenge har vært utenfor rampelyset. Prisen på bruktmarkedet har rast de siste årene, og fire eksemplarer kan plukkes opp for godt under 2 500 dollar totalt, som tilsvarer rundt 27 000 kroner. Resten av maskinen – CPU, RAM, strømforsyning og lagring – bringer totalbudsjettet til under 25 000 kroner.

Hvert kort har 11 GB VRAM, som gir totalt 44 GB VRAM på tvers av fire kort. Det er langt fra de 80 GB du finner på et enkelt H100-kort, men med riktig quantization og minnehåndtering holder det til å laste inn hele DeepSeek V4 Flash.

Modellens MoE-arkitektur er sentral her. DeepSeek V4 Flash har 284 milliarder totale parametere, men bare 13 milliarder er aktive på en gang under inferens. Det betyr at minnetrykket er mye lavere enn bruttoantallet tilsier. DeepSeek V4 ble lansert som open source med en kontekstlengde på opptil én million tokens – akkurat det som gjør lokal kjøring mulig i det hele tatt.

Fire RTX 2080 Ti grafikkort montert i et åpent PC-oppsett for lokal AI-inferens — Totalt 44 GB VRAM fordelt på fire RTX 2080 Ti-er fra 2018 – nok til å kjøre DeepSeek V4 Flash

Hva er W8A8-quantization og custom Turing-kjerner?

For å få DeepSeek V4 Flash ned i 44 GB VRAM brukte teamet W8A8-quantization – et format der både vektene og aktiveringene i modellen representeres med 8-bit heltall i stedet for 16-bit eller 32-bit flyttall. Det halverer minneforbruket sammenlignet med FP16 og reduserer beregningstrykket betydelig.

W8A8 er ikke nytt, men implementasjonen for RTX 2080 Ti krevde ekstra arbeid. RTX 2080 Ti-en bruker Turings GPU-arkitektur – ikke Ampere eller Ada Lovelace som nyere kort. Turing har begrenset native støtte for moderne quantization-operasjoner, og eksisterende rammeverk som vLLM og llama.cpp er ikke alltid optimalisert for den arkitekturen.

Løsningen var custom CUDA-kjerner skrevet spesifikt for Turing. Det er ikke noe du bare laster ned og kjører – det krever at noen faktisk har skrevet og optimalisert lavnivåkode for den konkrete GPU-arkitekturen. Teamet utviklet egne kjerner som utnytter Turings tensoroperasjoner mer effektivt enn standard rammeverk gjør for eldre hardware.

Resultatet: 255 prefill tokens per sekund på tvers av de fire kortene. Prefill-hastighet måler hvor fort modellen behandler inngangstokens – konteksten du gir den – og 255 tokens per sekund er respektabelt for et oppsett i denne prisklassen. Tilsvarende quantization-teknikker er noe forskningsmiljøet har jobbet med lenge, men å implementere dem for spesifikk legacy-hardware er et annet kapittel.

Hva med inter-GPU-kommunikasjonen?

Fire RTX 2080 Ti-er i ett system er ikke plug-and-play for LLM-inferens. Kortene kommuniserer via PCIe, ikke NVLink – noe som betyr at båndbredden mellom GPU-ene er en potensiell flaskehals. NVLink gir 600 GB/s mellom Ampere-kort; PCIe Gen4 x16 gir rundt 32 GB/s per retning.

For dual-GPU-oppsett med RTX 2080 Ti har vi sett lignende PCIe-utfordringer tidligere – to kort ga 38 token/s med Qwen3.6 27B. Med fire kort og en mye større MoE-modell er kommunikasjonsoverheadet en reel faktor, og teamet måtte styre datastrømmen mellom kortene nøye.

MoE-arkitekturen hjelper også her: ekspertblokker kan distribueres på tvers av GPU-er slik at hvert kort håndterer sin del av modellen. Når bare 13 milliarder parametere er aktive per token-pass, reduseres mengden data som må flyttes mellom kortene sammenlignet med en tett modell av samme størrelse.

Visualisering av W8A8-quantization som komprimerer LLM-parametere fra 16-bit til 8-bit — W8A8-quantization halverer minneforbruket ved å representere vekter og aktiveringer med 8-bit heltall

Hvorfor er dette interessant for deg?

For de fleste som vil kjøre AI lokalt, er ikke dette et prosjekt de skal kopiere direkte – det krever kompetanse på CUDA-programmering og lavnivåoptimalisering. Men det demonstrerer noe viktig: brukte forbrukerkort fra 2018 er ikke avleggs for LLM-inferens.

RTX 2080 Ti bruktpriser har rast fordi folk kjøpte nyere gaming-kort. Det gjør dem interessante for AI-bruk. Sammenlign med det Intel Arc Pro B70 gir deg for under 10 000 kr – 32 GB VRAM på ett enkelt kort, men med ustabil software-støtte. Fire RTX 2080 Ti-er gir 44 GB fordelt på fire kort, med moden CUDA-støtte og et stort open source-økosystem.

For modeller under 30 milliarder parametere trenger du ikke engang custom kjerner – standard llama.cpp eller Ollama med quantization fungerer fint på eldre Nvidia-hardware. DeepSeek V4 Flash er et ekstremt tilfelle av hva som er mulig når noen legger ned seriøst ingeniørarbeid.

Hva kreves for å gjøre noe lignende selv?

Vil du kjøre store modeller lokalt uten å bruke skjorta på hardware? Her er den praktiske virkeligheten:

For modeller under 14 milliarder parametere holder én RTX 3090 eller RTX 4090 med 24 GB VRAM. Quantization til Q4 eller Q5 gjør de fleste modeller under 14 milliarder parametere kjørbare, og standard rammeverk som Ollama håndterer det uten at du trenger å skrive en eneste linje CUDA.

For 30-70 milliarder parametere trenger du enten et enkelt kort med mye VRAM (som Arc Pro B70 med 32 GB) eller to kort med NVLink/PCIe-kommunikasjon. Her begynner det å bli mer komplisert å konfigurere, men llama.cpp støtter tensor-parallelisme over PCIe.

For 100+ milliarder parametere – som DeepSeek V4 Flash – kreves enten MoE-arkitektur (lavt aktivt parameterantal), aggressiv quantization, og/eller flere kort. Det er her custom kjerner som i dette prosjektet gjør en faktisk forskjell. Se også hva det bredere open source AI-landskapet tilbyr av rammeverk for slike oppsett.

255 prefill tokens per sekund på fire brukte kort til 25 000 kr er imponerende engineering. Det er ikke en oppskrift alle kan følge, men det skyver grensen for hva forbrukerhardware faktisk kan gjøre – og det er verdt å legge merke til.

DeepSeek V4 Flash lokalt på fire RTX 2080 Ti – 255 tokens per sekund for under 25 000 kr

Neste

Google Antigravity 2.0 – agent-plattformen som erstatter Gemini CLI

Skribent

Jan Sverre Bauge

tagger

Del artikkel

Innhold Vis

Hva er oppsettet – fire RTX 2080 Ti til under 25 000 kr?

Hva er W8A8-quantization og custom Turing-kjerner?

Hva med inter-GPU-kommunikasjonen?

Hvorfor er dette interessant for deg?

Hva kreves for å gjøre noe lignende selv?

Legg igjen en kommentar Avbryt svar

Suno AI – 150 Låter Testet: Hva Funker og Hva Er Bortkastet Tid

Claude AI – pris, funksjoner og norsk guide (2026)

Suno AI Copyright 2026 – Opphavsrett og Rettigheter for AI-Musikk

Ollama Guide – Kjør AI Gratis og Lokalt på Din Egen PC (2026)

Glutenfri sitronkake – min beste oppskrift

Amazon droppet Sam Altman-filmen etter 50 milliarder til OpenAI – nå vil ingen ha den

Suno AI – 150 Låter Testet: Hva Funker og Hva Er Bortkastet Tid

Claude AI – pris, funksjoner og norsk guide (2026)

Suno AI Copyright 2026 – Opphavsrett og Rettigheter for AI-Musikk

Glutenfri sitronkake – min beste oppskrift

Kaffegrut i Hagen – Slik Bruker Du Det som Gjødsel og Skadedyrbekjemper

Sterk Chili Kaffe

Stekt Kylling i Airfryer

DeepSeek V4 Flash lokalt på fire RTX 2080 Ti – 255 tokens per sekund for under 25 000 kr

Neste

Skribent

tagger

Del artikkel

Innhold Vis

Hva er oppsettet – fire RTX 2080 Ti til under 25 000 kr?

Hva er W8A8-quantization og custom Turing-kjerner?

Hva med inter-GPU-kommunikasjonen?

Hvorfor er dette interessant for deg?

Hva kreves for å gjøre noe lignende selv?

Legg igjen en kommentar Avbryt svar

Meld deg på nyhetsbrevet

Du liker kanskje denne også