Jan Sverre sitter i et hjemmelaboratorium omgitt av GPU-er og benchmarkgrafer på skjermen

RTX 5090 og lokal LLM – hva skjer med ytelse når du skrur ned strømmen?

Detaljert benchmark av RTX 5090 ved ulike strømnivåer: prompt parsing, token-generering og strøm-effektivitet for lokal LLM-kjøring. Hvor er sweet spot?
Jan Sverre ved skrivebordet med lokale AI-dokumenter og privat kunnskapsbase på skjermen

Lokal LLM som personlig kunnskapsbase – slik gjør du det privat

Bruk en lokal LLM med dine egne notater, PDF-er og dokumenter som en privat kunnskapsbase. Her er oppsettene som faktisk fungerer i 2026.
Jan Sverre i et lydstudio med mikrofon, omgitt av lydbølger og AI-visualiseringer for DramaBox TTS

DramaBox – den mest ekspressive TTS-modellen du kan kjøre selv

DramaBox fra Resemble AI er en open source TTS-modell som kloner stemmer og styrer latter, sukk og pauser via tekstprompt. Krever 24 GB VRAM.
Jan Sverre Bauge sitter med MacBook Pro og ser på terminalen som viser MTP-ytelse på 34 tokens per sekund

MTP + TurboQuant på LLaMA.cpp – Qwen 27B til 34 tokens per sekund på MacBook

Multi-Token Prediction kombinert med TurboQuant gir Qwen 27B 34 tokens per sekund på MacBook Pro M5 Max – en økning på 40% uten ekstra kostnad.
Jan Sverre i serverrom med blågrønt lys fra racks, tablet viser AI-genererte videorammer fra Alice v1

Alice v1 – open source videomodell som utfordrer Sora og Veo

Alice v1 er en 14-milliarder parameter open source videomodell fra Mirage med Apache 2.0-lisens. Bruker rCM-destillasjon og MoE-arkitektur for å generere 720p video på 4 inferenstrinn – og hevder å slå lukkede modeller som Sora og Veo.
Jan Sverre foran to skjermer sent på kvelden mens han optimaliserer LTX-2.3 inference-hastighet fra 300 sekunder til 45 sekunder

LTX-2.3 inference-optimalisering – fra 300 sekunder til 45 sekunder på RTX 3080 Ti

LTX-2.3 tar 300 sekunder å generere video på RTX 3080 Ti med standardoppsett. Med TeaCache, SageAttention og FP8-kvantisering kombinert kan det kappes ned til 45 sekunder – en 6,7x speedup uten å ofre videokvalitet.
Jan Sverre ser på en lipsync-demo fra LipDub i mørkt rom, skjermen kaster blått lys over ansiktet hans

LipDub – open source lipsync i én AI-pasning bygget på LTX-2.3

LipDub er et nytt open source-verktøy for lipsync fra Lightricks bygget på LTX-2.3. Med IC-LoRA regenererer det dialog og leppebevegelser i én enkelt diffusjonspasning – ikke to separate steg. Beta støtter 1080p, 8 sekunder og én taler.
Jan Sverre ser på hastighetstall for ExLlamaV3 DFlash på mørkt hjemmekontor med skjermgløde

ExLlamaV3 DFlash – spekulativ dekoding gir 2,5 ganger raskere lokal inferens

ExLlamaV3 DFlash gir opptil 2,51 ganger raskere lokal AI-inferens med spekulativ dekoding og n-gram-caching. Her er tallene og hva de betyr i praksis for deg som kjører modeller lokalt.
Jan Sverre ser ned på et gulv av glødende råpiksler som danner bilder direkte uten VAE - HiDream-O1-Image arkitektur

HiDream-O1-Image – open source bildegenerering uten VAE

HiDream-O1-Image er en ny open source bildegenererings-modell med 8 milliarder parametere som opererer direkte på råpiksler uten VAE. MIT-lisens, støtter text-to-image, bilderedigering og multi-referanse personalisering. GenEval 0,90 og rangert nr. 8 blant åpne modeller.
Jan Sverre studerer Atlas inferensmotor-kode på skjerm med Rust og CUDA i mørkt rom med grønt skjærskjær

Atlas inference engine – open source Rust og CUDA slår vLLM med 131 tokens per sekund

Atlas inference engine er nå open source – en LLM-inferensmotor skrevet i ren Rust og CUDA uten Python eller PyTorch. Oppnår 131 tokens per sekund på Qwen3.5-35B, raskere enn NVIDIAs vLLM på identisk GB10-maskinvare.