Jan Sverre studerer Atlas inferensmotor-kode på skjerm med Rust og CUDA i mørkt rom med grønt skjærskjær

Atlas inference engine – open source Rust og CUDA slår vLLM med 131 tokens per sekund

Atlas inference engine er nå open source – en LLM-inferensmotor skrevet i ren Rust og CUDA uten Python eller PyTorch. Oppnår 131 tokens per sekund på Qwen3.5-35B, raskere enn NVIDIAs vLLM på identisk GB10-maskinvare.
Mann i mørkt auditorium ser mot scenen under Code w/ Claude 2026-eventet med blå scenelys

Code w/ Claude 2026 – hva Anthropic annonserte på utviklerkonferansen

Anthropic holdt Code w/ Claude 2026 den 6. mai. Ingen ny modell – men Routines, Remote Agents, Outcomes, Dreaming og dobling av rate limits i Claude Code. Her er hva som faktisk ble annonsert.
Jan Sverre studerer distribuert AI-inferens med to maskiner koblet via nettverk på hjemmekontoret

LARQL – kjør Gemma 4 26B på to billige maskiner med decoupled attention

LARQL er et open source Rust-prosjekt som lar deg kjøre Gemma 4 26B spredt over to billige maskiner ved å koble attention-mekanismen fra modellvektene. Distribuert lokal AI-inferens uten dyr GPU-rigg – her er hva det betyr i praksis.
Jan Sverre utforsker vibevoice.cpp - Microsofts lokale tale-AI med speaker diarization og TTS på CPU og GPU

vibevoice.cpp – Microsofts tale-AI kjøres lokalt uten Python

vibevoice.cpp er en C++-port av Microsofts VibeVoice som lar deg kjøre avansert tale-AI lokalt – TTS, long-form ASR og speaker diarization på CPU, CUDA, Metal og Vulkan uten Python.
Jan Sverre utforsker OpenAIs WebRTC relay-arkitektur for lav-latens stemme-AI med 900 millioner brukere

OpenAI Voice AI – slik leverer de lav latens til 900 millioner brukere

OpenAI redesignet hele WebRTC-stakken for ChatGPT Voice og Realtime API – relay pluss transceiver-arkitektur, Global Relay og Go-implementasjon som leverer lav latens til 900 millioner ukentlige brukere.
Jan Sverre fascinert over MTPLX ytelsesøkning på MacBook Pro M5 Max - 2,24 ganger raskere MTP-inferens

MTPLX – 2,24 ganger raskere MTP-inferens for Apple Silicon

MTPLX er en ny MTP-inferensmotor for Apple Silicon som gir 2,24 ganger raskere token-generering uten ekstra minne. Qwen3.6-27B gikk fra 28 til 63 tokens per sekund på MacBook Pro M5 Max.
Jan Sverre utforsker FastDMS KV-cache-komprimering som gir 6,4x minnereduksjon og slår vLLM i hastighet

FastDMS – 6,4x KV-cache-komprimering som slår vLLM i hastighet

FastDMS er en åpen referanseimplementasjon av Dynamic Memory Sparsification som gir 6,4x KV-cache-komprimering og høyere inferenshastighet enn vLLM BF16 og FP8. Her er teknikken bak og hva det betyr for lokal LLM-kjøring.
Jan Sverre utforsker llama.cpp MTP-støtte som gir 2-3 ganger raskere lokal AI-inferens

llama.cpp MTP-støtte i beta – opptil 2,4 ganger raskere lokal inferens

llama.cpp har fått MTP-støtte i beta. Multi-Token Prediction gir opptil 2,4 ganger raskere lokal AI-inferens for Qwen3.5-modeller – fra 7 til 21 tokens per sekund uten ny maskinvare.
Jan Sverre omringet av dollar-sedler og kvitteringer med Claude Code åpen på laptop - illustrasjon av Ubers AI-budsjettsprekk

Uber brukte hele AI-budsjettet for 2026 på Claude Code – på fire måneder

Uber introduserte Claude Code for ingeniørteamet i desember 2025. Innen april 2026 var hele AI-budsjettet for året borte. 95 prosent av ingeniørene bruker AI-verktøy månedlig, og 70 prosent av koden stammer fra AI. Her er hva som skjedde – og hva det betyr for andre selskaper.
Mann i hettegenser lytter til AI-generert tale fra Flare-TTS 28M open source stemmemodell

Flare-TTS 28M – open source stemmemodell trent fra bunnen av på 24 timer

Flare-TTS 28M er en open source text-to-speech-modell med 28 millioner parametere, trent fra bunnen av på én NVIDIA A6000 GPU på 24 timer. Her er hva modellen kan, hvordan du kjører den lokalt, og hva det sier om open source AI i 2026.