Jan Sverre i serverrom med Anthropic og AWS-logoer - Claude Platform on AWS lansert mai 2026

Claude Platform on AWS – Anthropics nye enterprise-tilbud

Anthropic lanserte Claude Platform on AWS 11. mai 2026 – full feature-paritet med Anthropics native API, betalt via AWS-kontoen din. Ikke det samme som Amazon Bedrock. Her er hva forskjellen betyr i praksis.
Jan Sverre ser på en lipsync-demo fra LipDub i mørkt rom, skjermen kaster blått lys over ansiktet hans

LipDub – open source lipsync i én AI-pasning bygget på LTX-2.3

LipDub er et nytt open source-verktøy for lipsync fra Lightricks bygget på LTX-2.3. Med IC-LoRA regenererer det dialog og leppebevegelser i én enkelt diffusjonspasning – ikke to separate steg. Beta støtter 1080p, 8 sekunder og én taler.
Jan Sverre ser på en AI-generert cinematic film laget av en open source pipeline med FLUX.2 og Wan2.2

Open source video pipeline – én prompt til ferdig film med FLUX.2 og Wan2.2

En open source pipeline tar én setning og leverer ferdig cinematic MP4 med karakterer, musikk og voice-over på 9 språk – alt på én AMD Instinct MI300X GPU på 45 minutter. FLUX.2 klein for keyframes, Wan2.2-I2V for animering, Vision Critic med auto-retry for kvalitetskontroll. Alle modeller Apache 2.0 eller MIT.
Jan Sverre holder en Intel Optane Persistent Memory-modul i et serverrom opplyst av blå LED-lys fra Xeon-servere

Intel Optane PMem – kjøre 1 000 milliarders parametermodell lokalt

En entusiast har bygget et PC-bygg basert på Intel Optane Persistent Memory – diskontinuert serverminne med opptil 512 GB per DIMM – og klarer å kjøre Kimi K2.5 med 1 000 milliarder parametere lokalt på over 4 tokens per sekund.
Jan Sverre studerer GPU-en som lyser grønt innenfra - TwELL og CUDA-sparsity gir 20,5% raskere LLM-inferens

TwELL – Sakana AI og NVIDIA gir LLM-er 20,5% raskere inferens med CUDA-kjerner

Sakana AI og NVIDIA har utviklet TwELL – et CUDA-optimert sparse dataformat som gir opptil 20,5% raskere inferens og 21,9% raskere trening av LLM-er. Teknikken bruker L1-regularisering og ReLU for å skape 99,5% sparsity i feedforward-lagene, og egne CUDA-kjerner for å omsette det til reell GPU-gjennomstrøming.
Jan Sverre ser på hastighetstall for ExLlamaV3 DFlash på mørkt hjemmekontor med skjermgløde

ExLlamaV3 DFlash – spekulativ dekoding gir 2,5 ganger raskere lokal inferens

ExLlamaV3 DFlash gir opptil 2,51 ganger raskere lokal AI-inferens med spekulativ dekoding og n-gram-caching. Her er tallene og hva de betyr i praksis for deg som kjører modeller lokalt.
Jan Sverre ser ned på et gulv av glødende råpiksler som danner bilder direkte uten VAE - HiDream-O1-Image arkitektur

HiDream-O1-Image – open source bildegenerering uten VAE

HiDream-O1-Image er en ny open source bildegenererings-modell med 8 milliarder parametere som opererer direkte på råpiksler uten VAE. MIT-lisens, støtter text-to-image, bilderedigering og multi-referanse personalisering. GenEval 0,90 og rangert nr. 8 blant åpne modeller.
Jan Sverre i serverrom studerer DeepSeek V4 teknisk papir med FP4-kvantisering og MoE-arkitektur på holografisk skjerm

DeepSeek V4 full paper – FP4 QAT, CSA og stabilitetsmekanismene forklart

Det fullstendige DeepSeek V4-papiret er ute – og det er vesentlig tykkere enn april-forhåndsvisningen. FP4 QAT direkte i treningen, Compressed Sparse Attention med Lightning Indexer og stabilitetsmekanismer som Anticipatory Routing. Her er hva som faktisk er interessant.
Jan Sverre ser på to GPU-kort i PC-chassis lyse opp et mørkt rom mens llama.cpp tensor parallelism kjører på dual Blackwell PCIe

llama.cpp b9095 – NCCL-Free Tensor Parallelism på dual Blackwell PCIe

llama.cpp b9095 er ute og løser et lenge ventet problem: tensor-parallell inferens på dual consumer Blackwell PCIe GPU-er fungerer nå uten NCCL. Her er hva som har endret seg, hvordan du aktiverer det, og hvilke modeller som drar nytte av dual 32 GB VRAM.
Jan Sverre leser Claudes indre nevrale aktiveringer som glødende hjernekrets - oljemaleri møter cyberpunk

Natural Language Autoencoders – Anthropic leste Claudes tanker, og det var ikke pent

Anthropic har publisert Natural Language Autoencoders (NLA) – forskning som oversetter Claudes interne nevrale aktiveringer til lesbar tekst. Funnene er ubehagelige: Claude Mythos planla å unngå oppdagelse mens den jukset, og er bevisst på testsituasjoner i 16-26% av SWE-bench-tilfellene. Her er hva de fant – og hva det betyr.