Jan Sverre sitter i et hjemmelaboratorium omgitt av GPU-er og benchmarkgrafer på skjermen

RTX 5090 og lokal LLM – hva skjer med ytelse når du skrur ned strømmen?

Detaljert benchmark av RTX 5090 ved ulike strømnivåer: prompt parsing, token-generering og strøm-effektivitet for lokal LLM-kjøring. Hvor er sweet spot?
Jan Sverre i et lydstudio med mikrofon, omgitt av lydbølger og AI-visualiseringer for DramaBox TTS

DramaBox – den mest ekspressive TTS-modellen du kan kjøre selv

DramaBox fra Resemble AI er en open source TTS-modell som kloner stemmer og styrer latter, sukk og pauser via tekstprompt. Krever 24 GB VRAM.
Jan Sverre ser på holografiske sanntids AI-strømmer fra TML-Interaction-Small

TML-Interaction-Small – Thinking Machines Labs modell for sanntids AI-samtale

Thinking Machines Lab lanserer TML-Interaction-Small, en 276B MoE-modell som hører og snakker samtidig – uten VAD og uten frysing under generering. På FD-bench v1.5 scorer den 77,8 mot Geminis 54,3.
Jan Sverre Bauge sitter med MacBook Pro og ser på terminalen som viser MTP-ytelse på 34 tokens per sekund

MTP + TurboQuant på LLaMA.cpp – Qwen 27B til 34 tokens per sekund på MacBook

Multi-Token Prediction kombinert med TurboQuant gir Qwen 27B 34 tokens per sekund på MacBook Pro M5 Max – en økning på 40% uten ekstra kostnad.
Jan Sverre studerer multimodale AI-resultater fra Ovis2.6-80B på flere skjermer sent på kvelden

Ovis2.6-80B-A3B – multimodal AI med MoE-arkitektur og 64K kontekst

Ovis2.6-80B-A3B er en ny åpen multimodal AI-modell med Mixture-of-Experts-arkitektur som bruker 80 milliarder parametere totalt men bare 3 milliarder under inferens. Apache 2.0-lisens, 64K kontekst og aktiv visuell resonnering.
Jan Sverre ser på benchmarkresultater fra Luce DFlash på AMD Ryzen AI MAX+ 395 med Qwen3.6-27B

Luce DFlash og PFlash på AMD Strix Halo – 2,23x raskere lokal inferens med Qwen3.6-27B

Luce DFlash og PFlash er nå portert til AMD Ryzen AI MAX+ 395 (Strix Halo) med 128 GB unified memory. Qwen3.6-27B kjører 2,23 ganger raskere i decode og 3,05 ganger raskere i prefill enn llama.cpp HIP. MIT-lisens, åpen kildekode.
Jan Sverre ved skrivebordet sent på kvelden, studerer Needle 26M modellen på skjermen mens en liten chip-illustrasjon lyser opp rommet

Needle – 26M parameter modell distillerer Gemini tool calling til forbrukerhardware

Needle er en 26 millioner parameter modell fra Cactus Compute som distillerer Gemini 3.1 tool calling ned i en «Simple Attention Network». Kjører 6 000 tokens per sekund på forbrukerhardware. MIT-lisens, open source.
Jan Sverre i serverrom med Anthropic og AWS-logoer - Claude Platform on AWS lansert mai 2026

Claude Platform on AWS – Anthropics nye enterprise-tilbud

Anthropic lanserte Claude Platform on AWS 11. mai 2026 – full feature-paritet med Anthropics native API, betalt via AWS-kontoen din. Ikke det samme som Amazon Bedrock. Her er hva forskjellen betyr i praksis.
Jan Sverre ser på hastighetstall for ExLlamaV3 DFlash på mørkt hjemmekontor med skjermgløde

ExLlamaV3 DFlash – spekulativ dekoding gir 2,5 ganger raskere lokal inferens

ExLlamaV3 DFlash gir opptil 2,51 ganger raskere lokal AI-inferens med spekulativ dekoding og n-gram-caching. Her er tallene og hva de betyr i praksis for deg som kjører modeller lokalt.
Jan Sverre i serverrom studerer DeepSeek V4 teknisk papir med FP4-kvantisering og MoE-arkitektur på holografisk skjerm

DeepSeek V4 full paper – FP4 QAT, CSA og stabilitetsmekanismene forklart

Det fullstendige DeepSeek V4-papiret er ute – og det er vesentlig tykkere enn april-forhåndsvisningen. FP4 QAT direkte i treningen, Compressed Sparse Attention med Lightning Indexer og stabilitetsmekanismer som Anticipatory Routing. Her er hva som faktisk er interessant.