Jan Sverre utforsker llama.cpp MTP-støtte som gir 2-3 ganger raskere lokal AI-inferens

llama.cpp MTP-støtte i beta – opptil 2,4 ganger raskere lokal inferens

llama.cpp har fått MTP-støtte i beta. Multi-Token Prediction gir opptil 2,4 ganger raskere lokal AI-inferens for Qwen3.5-modeller – fra 7 til 21 tokens per sekund uten ny maskinvare.
Jan Sverre utforsker torch-nvenc-compress biblioteket som multipliserer PCIe-båndbredde ved hjelp av NVENC-silikon på GPU

torch-nvenc-compress – NVENC-silikon som PCIe-båndbreddemultiplikator

torch-nvenc-compress er et Python-bibliotek som bruker GPUens NVENC-videosilikon til å komprimere aktiveringstensorer og KV-cache på farten, og seksdobler effektiv PCIe-båndbredde fra 30 GB/s til 180 GB/s for multi-GPU LLM-inferens.
Mann i hettegenser utforsker alternativ historievisualisering med Qwen Image AI-oppsett og ComfyUI på skjerm

Qwen Image og alternativ historie – slik lager du fotorealistiske bilder fra tidslinjer som aldri skjedde

Qwen Image er Alibabas open source AI-modell for bildegenerering og -redigering. Her er hvordan den brukes til å lage fotorealistiske bilder fra alternative historiske tidslinjer – med ComfyUI-oppsett og GGUF-varianter ned til 8 GB VRAM.
Jan Sverre sammenligner Qwen 3 VL og Gemma 4 vision-modeller lokalt med benchmaxing-vinkel

Qwen 3 VL vs Gemma 4 – hvem vinner egentlig på vision-oppgaver?

Offisielle benchmarks peker mot Qwen 3 VL 32B som vinner over Gemma 4 31B på vision-oppgaver. Men side-om-side-testing med vLLM og FP8 lokalt avslører et annet bilde: Gemma 4 vinner i praksis. Her er hva benchmaxing faktisk betyr for deg som vil kjøre vision-AI lokalt.
Mann i hettegenser som systematisk bygger opp en prompting-struktur med JSON-kode og sjekklister rundt seg

Systematisk prompting – fem teknikker for pålitelige AI-svar

Fem teknikker som gjør AI-svar pålitelige nok for produksjonssystemer: rolle-spesifikk prompting, negativ prompting, JSON-strukturerte svar, ARQ og verbalized sampling. Ingen modelltrening nødvendig – alt skjer i prompten.
Jan Sverre omringet av dollar-sedler og kvitteringer med Claude Code åpen på laptop - illustrasjon av Ubers AI-budsjettsprekk

Uber brukte hele AI-budsjettet for 2026 på Claude Code – på fire måneder

Uber introduserte Claude Code for ingeniørteamet i desember 2025. Innen april 2026 var hele AI-budsjettet for året borte. 95 prosent av ingeniørene bruker AI-verktøy månedlig, og 70 prosent av koden stammer fra AI. Her er hva som skjedde – og hva det betyr for andre selskaper.
Mann i hettegenser lytter til AI-generert tale fra Flare-TTS 28M open source stemmemodell

Flare-TTS 28M – open source stemmemodell trent fra bunnen av på 24 timer

Flare-TTS 28M er en open source text-to-speech-modell med 28 millioner parametere, trent fra bunnen av på én NVIDIA A6000 GPU på 24 timer. Her er hva modellen kan, hvordan du kjører den lokalt, og hva det sier om open source AI i 2026.
Jan Sverre utforsker Gemma-4-31B-it-DFlash og spekulativ dekoding med DFlash-teknikken

Gemma-4-31B-it-DFlash – spekulativ dekoding for Googles åpne modell

Gemma-4-31B-it-DFlash er en ny variant av Googles Gemma 4 31B utgitt av Z Lab, med DFlash spekulativ dekoding som kan gi opptil 8x raskere inferens. Llama.cpp-støtte er under utvikling via PR #22105.
Jan Sverre analyserer DeepSeek V4 Pro og Flash - kinesiske open source AI-modeller med 1,6 billiarder parametere

DeepSeek V4 Pro og Flash – 1,6 billiarder parametere og Huawei Ascend-støtte

DeepSeek V4 Pro og Flash er lansert med 1,6 billiarder parametere, MIT-lisens og støtte for Huawei Ascend-chips. Modellen er god men ikke lenger benchmarks-leder – her er hva du trenger å vite.
Jan Sverre utforsker IBM Granite 4.1 sine tre open source AI-modeller på 3B, 8B og 30B parametere

IBM Granite 4.1 – open source AI-modeller i 3B, 8B og 30B

IBM Granite 4.1 er tre nye open source AI-modeller (3B, 8B og 30B) med Apache 2.0-lisens, 512K tokens kontekstvindu og FP8-kvantisering. 8B-modellen matcher tidligere 32B MoE-modell – og kjører på vanlig gaming-GPU.