Mann i mørkt auditorium ser mot scenen under Code w/ Claude 2026-eventet med blå scenelys

Code w/ Claude 2026 – hva Anthropic annonserte på utviklerkonferansen

Anthropic holdt Code w/ Claude 2026 den 6. mai. Ingen ny modell – men Routines, Remote Agents, Outcomes, Dreaming og dobling av rate limits i Claude Code. Her er hva som faktisk ble annonsert.
Jan Sverre studerer distribuert AI-inferens med to maskiner koblet via nettverk på hjemmekontoret

LARQL – kjør Gemma 4 26B på to billige maskiner med decoupled attention

LARQL er et open source Rust-prosjekt som lar deg kjøre Gemma 4 26B spredt over to billige maskiner ved å koble attention-mekanismen fra modellvektene. Distribuert lokal AI-inferens uten dyr GPU-rigg – her er hva det betyr i praksis.
Jan Sverre utforsker vibevoice.cpp - Microsofts lokale tale-AI med speaker diarization og TTS på CPU og GPU

vibevoice.cpp – Microsofts tale-AI kjøres lokalt uten Python

vibevoice.cpp er en C++-port av Microsofts VibeVoice som lar deg kjøre avansert tale-AI lokalt – TTS, long-form ASR og speaker diarization på CPU, CUDA, Metal og Vulkan uten Python.
Jan Sverre utforsker OpenAIs WebRTC relay-arkitektur for lav-latens stemme-AI med 900 millioner brukere

OpenAI Voice AI – slik leverer de lav latens til 900 millioner brukere

OpenAI redesignet hele WebRTC-stakken for ChatGPT Voice og Realtime API – relay pluss transceiver-arkitektur, Global Relay og Go-implementasjon som leverer lav latens til 900 millioner ukentlige brukere.
Jan Sverre fascinert over MTPLX ytelsesøkning på MacBook Pro M5 Max - 2,24 ganger raskere MTP-inferens

MTPLX – 2,24 ganger raskere MTP-inferens for Apple Silicon

MTPLX er en ny MTP-inferensmotor for Apple Silicon som gir 2,24 ganger raskere token-generering uten ekstra minne. Qwen3.6-27B gikk fra 28 til 63 tokens per sekund på MacBook Pro M5 Max.
Jan Sverre utforsker LLMSearchIndex - lokal websøk med 203 millioner indekserte sider for RAG-systemer

LLMSearchIndex – lokal websøk med 203 millioner sider for RAG

LLMSearchIndex er et open source Python-bibliotek som lar deg søke på internett lokalt – uten Brave API, SearXNG eller andre betalte tjenester. Over 203 millioner indekserte sider fra FineWeb og Wikipedia, komprimert til en FAISS-indeks som kjører på vanlig hardware med 6 GB RAM.
Jan Sverre utforsker FastDMS KV-cache-komprimering som gir 6,4x minnereduksjon og slår vLLM i hastighet

FastDMS – 6,4x KV-cache-komprimering som slår vLLM i hastighet

FastDMS er en åpen referanseimplementasjon av Dynamic Memory Sparsification som gir 6,4x KV-cache-komprimering og høyere inferenshastighet enn vLLM BF16 og FP8. Her er teknikken bak og hva det betyr for lokal LLM-kjøring.
Jan Sverre utforsker llama.cpp MTP-støtte som gir 2-3 ganger raskere lokal AI-inferens

llama.cpp MTP-støtte i beta – opptil 2,4 ganger raskere lokal inferens

llama.cpp har fått MTP-støtte i beta. Multi-Token Prediction gir opptil 2,4 ganger raskere lokal AI-inferens for Qwen3.5-modeller – fra 7 til 21 tokens per sekund uten ny maskinvare.
Jan Sverre utforsker torch-nvenc-compress biblioteket som multipliserer PCIe-båndbredde ved hjelp av NVENC-silikon på GPU

torch-nvenc-compress – NVENC-silikon som PCIe-båndbreddemultiplikator

torch-nvenc-compress er et Python-bibliotek som bruker GPUens NVENC-videosilikon til å komprimere aktiveringstensorer og KV-cache på farten, og seksdobler effektiv PCIe-båndbredde fra 30 GB/s til 180 GB/s for multi-GPU LLM-inferens.
Mann i hettegenser utforsker alternativ historievisualisering med Qwen Image AI-oppsett og ComfyUI på skjerm

Qwen Image og alternativ historie – slik lager du fotorealistiske bilder fra tidslinjer som aldri skjedde

Qwen Image er Alibabas open source AI-modell for bildegenerering og -redigering. Her er hvordan den brukes til å lage fotorealistiske bilder fra alternative historiske tidslinjer – med ComfyUI-oppsett og GGUF-varianter ned til 8 GB VRAM.