Jan Sverre Bauge sitter med MacBook Pro og ser på terminalen som viser MTP-ytelse på 34 tokens per sekund

MTP + TurboQuant på LLaMA.cpp – Qwen 27B til 34 tokens per sekund på MacBook

Multi-Token Prediction kombinert med TurboQuant gir Qwen 27B 34 tokens per sekund på MacBook Pro M5 Max – en økning på 40% uten ekstra kostnad.
Jan Sverre studerer multimodale AI-resultater fra Ovis2.6-80B på flere skjermer sent på kvelden

Ovis2.6-80B-A3B – multimodal AI med MoE-arkitektur og 64K kontekst

Ovis2.6-80B-A3B er en ny åpen multimodal AI-modell med Mixture-of-Experts-arkitektur som bruker 80 milliarder parametere totalt men bare 3 milliarder under inferens. Apache 2.0-lisens, 64K kontekst og aktiv visuell resonnering.
Jan Sverre holder en Game Boy Color med AI-tekst på pikselskjermen, varmt lampelys i mørkt rom

AI på Game Boy Color – ekte transformer-modell kjører på 8-bit hardware fra 1998

En utvikler har fått Andrej Karpathys TinyStories-260K transformer-modell til å kjøre lokalt på en umodifisert Game Boy Color – uten PC, Wi-Fi eller sky. Her er den tekniske forklaringen og hva det betyr for edge AI.
Jan Sverre ser på benchmarkresultater fra Luce DFlash på AMD Ryzen AI MAX+ 395 med Qwen3.6-27B

Luce DFlash og PFlash på AMD Strix Halo – 2,23x raskere lokal inferens med Qwen3.6-27B

Luce DFlash og PFlash er nå portert til AMD Ryzen AI MAX+ 395 (Strix Halo) med 128 GB unified memory. Qwen3.6-27B kjører 2,23 ganger raskere i decode og 3,05 ganger raskere i prefill enn llama.cpp HIP. MIT-lisens, åpen kildekode.
Jan Sverre ved skrivebordet sent på kvelden, studerer Needle 26M modellen på skjermen mens en liten chip-illustrasjon lyser opp rommet

Needle – 26M parameter modell distillerer Gemini tool calling til forbrukerhardware

Needle er en 26 millioner parameter modell fra Cactus Compute som distillerer Gemini 3.1 tool calling ned i en «Simple Attention Network». Kjører 6 000 tokens per sekund på forbrukerhardware. MIT-lisens, open source.
Jan Sverre i serverrom med blågrønt lys fra racks, tablet viser AI-genererte videorammer fra Alice v1

Alice v1 – open source videomodell som utfordrer Sora og Veo

Alice v1 er en 14-milliarder parameter open source videomodell fra Mirage med Apache 2.0-lisens. Bruker rCM-destillasjon og MoE-arkitektur for å generere 720p video på 4 inferenstrinn – og hevder å slå lukkede modeller som Sora og Veo.
Jan Sverre foran to skjermer sent på kvelden mens han optimaliserer LTX-2.3 inference-hastighet fra 300 sekunder til 45 sekunder

LTX-2.3 inference-optimalisering – fra 300 sekunder til 45 sekunder på RTX 3080 Ti

LTX-2.3 tar 300 sekunder å generere video på RTX 3080 Ti med standardoppsett. Med TeaCache, SageAttention og FP8-kvantisering kombinert kan det kappes ned til 45 sekunder – en 6,7x speedup uten å ofre videokvalitet.
Jan Sverre i serverrom med Anthropic og AWS-logoer - Claude Platform on AWS lansert mai 2026

Claude Platform on AWS – Anthropics nye enterprise-tilbud

Anthropic lanserte Claude Platform on AWS 11. mai 2026 – full feature-paritet med Anthropics native API, betalt via AWS-kontoen din. Ikke det samme som Amazon Bedrock. Her er hva forskjellen betyr i praksis.
Jan Sverre ser på en lipsync-demo fra LipDub i mørkt rom, skjermen kaster blått lys over ansiktet hans

LipDub – open source lipsync i én AI-pasning bygget på LTX-2.3

LipDub er et nytt open source-verktøy for lipsync fra Lightricks bygget på LTX-2.3. Med IC-LoRA regenererer det dialog og leppebevegelser i én enkelt diffusjonspasning – ikke to separate steg. Beta støtter 1080p, 8 sekunder og én taler.
Jan Sverre ser på en AI-generert cinematic film laget av en open source pipeline med FLUX.2 og Wan2.2

Open source video pipeline – én prompt til ferdig film med FLUX.2 og Wan2.2

En open source pipeline tar én setning og leverer ferdig cinematic MP4 med karakterer, musikk og voice-over på 9 språk – alt på én AMD Instinct MI300X GPU på 45 minutter. FLUX.2 klein for keyframes, Wan2.2-I2V for animering, Vision Critic med auto-retry for kvalitetskontroll. Alle modeller Apache 2.0 eller MIT.