Jan Sverre holder en Game Boy Color med AI-tekst på pikselskjermen, varmt lampelys i mørkt rom

AI på Game Boy Color – ekte transformer-modell kjører på 8-bit hardware fra 1998

En utvikler har fått Andrej Karpathys TinyStories-260K transformer-modell til å kjøre lokalt på en umodifisert Game Boy Color – uten PC, Wi-Fi eller sky. Her er den tekniske forklaringen og hva det betyr for edge AI.
Jan Sverre ser på benchmarkresultater fra Luce DFlash på AMD Ryzen AI MAX+ 395 med Qwen3.6-27B

Luce DFlash og PFlash på AMD Strix Halo – 2,23x raskere lokal inferens med Qwen3.6-27B

Luce DFlash og PFlash er nå portert til AMD Ryzen AI MAX+ 395 (Strix Halo) med 128 GB unified memory. Qwen3.6-27B kjører 2,23 ganger raskere i decode og 3,05 ganger raskere i prefill enn llama.cpp HIP. MIT-lisens, åpen kildekode.
Jan Sverre ved skrivebordet sent på kvelden, studerer Needle 26M modellen på skjermen mens en liten chip-illustrasjon lyser opp rommet

Needle – 26M parameter modell distillerer Gemini tool calling til forbrukerhardware

Needle er en 26 millioner parameter modell fra Cactus Compute som distillerer Gemini 3.1 tool calling ned i en «Simple Attention Network». Kjører 6 000 tokens per sekund på forbrukerhardware. MIT-lisens, open source.
Jan Sverre i serverrom med blågrønt lys fra racks, tablet viser AI-genererte videorammer fra Alice v1

Alice v1 – open source videomodell som utfordrer Sora og Veo

Alice v1 er en 14-milliarder parameter open source videomodell fra Mirage med Apache 2.0-lisens. Bruker rCM-destillasjon og MoE-arkitektur for å generere 720p video på 4 inferenstrinn – og hevder å slå lukkede modeller som Sora og Veo.
Jan Sverre foran to skjermer sent på kvelden mens han optimaliserer LTX-2.3 inference-hastighet fra 300 sekunder til 45 sekunder

LTX-2.3 inference-optimalisering – fra 300 sekunder til 45 sekunder på RTX 3080 Ti

LTX-2.3 tar 300 sekunder å generere video på RTX 3080 Ti med standardoppsett. Med TeaCache, SageAttention og FP8-kvantisering kombinert kan det kappes ned til 45 sekunder – en 6,7x speedup uten å ofre videokvalitet.
Jan Sverre i serverrom med Anthropic og AWS-logoer - Claude Platform on AWS lansert mai 2026

Claude Platform on AWS – Anthropics nye enterprise-tilbud

Anthropic lanserte Claude Platform on AWS 11. mai 2026 – full feature-paritet med Anthropics native API, betalt via AWS-kontoen din. Ikke det samme som Amazon Bedrock. Her er hva forskjellen betyr i praksis.
Jan Sverre ser på en lipsync-demo fra LipDub i mørkt rom, skjermen kaster blått lys over ansiktet hans

LipDub – open source lipsync i én AI-pasning bygget på LTX-2.3

LipDub er et nytt open source-verktøy for lipsync fra Lightricks bygget på LTX-2.3. Med IC-LoRA regenererer det dialog og leppebevegelser i én enkelt diffusjonspasning – ikke to separate steg. Beta støtter 1080p, 8 sekunder og én taler.
Jan Sverre ser på en AI-generert cinematic film laget av en open source pipeline med FLUX.2 og Wan2.2

Open source video pipeline – én prompt til ferdig film med FLUX.2 og Wan2.2

En open source pipeline tar én setning og leverer ferdig cinematic MP4 med karakterer, musikk og voice-over på 9 språk – alt på én AMD Instinct MI300X GPU på 45 minutter. FLUX.2 klein for keyframes, Wan2.2-I2V for animering, Vision Critic med auto-retry for kvalitetskontroll. Alle modeller Apache 2.0 eller MIT.
Jan Sverre holder en Intel Optane Persistent Memory-modul i et serverrom opplyst av blå LED-lys fra Xeon-servere

Intel Optane PMem – kjøre 1 000 milliarders parametermodell lokalt

En entusiast har bygget et PC-bygg basert på Intel Optane Persistent Memory – diskontinuert serverminne med opptil 512 GB per DIMM – og klarer å kjøre Kimi K2.5 med 1 000 milliarder parametere lokalt på over 4 tokens per sekund.
Jan Sverre studerer GPU-en som lyser grønt innenfra - TwELL og CUDA-sparsity gir 20,5% raskere LLM-inferens

TwELL – Sakana AI og NVIDIA gir LLM-er 20,5% raskere inferens med CUDA-kjerner

Sakana AI og NVIDIA har utviklet TwELL – et CUDA-optimert sparse dataformat som gir opptil 20,5% raskere inferens og 21,9% raskere trening av LLM-er. Teknikken bruker L1-regularisering og ReLU for å skape 99,5% sparsity i feedforward-lagene, og egne CUDA-kjerner for å omsette det til reell GPU-gjennomstrøming.