Siste nytt
Luce DFlash og PFlash på AMD Strix Halo – 2,23x raskere lokal inferens med Qwen3.6-27B
Luce DFlash og PFlash er nå portert til AMD Ryzen AI MAX+ 395 (Strix Halo) med 128 GB unified memory. Qwen3.6-27B kjører 2,23 ganger raskere i decode og 3,05 ganger raskere i prefill enn llama.cpp HIP. MIT-lisens, åpen kildekode.
Needle – 26M parameter modell distillerer Gemini tool calling til forbrukerhardware
Needle er en 26 millioner parameter modell fra Cactus Compute som distillerer Gemini 3.1 tool calling ned i en «Simple Attention Network». Kjører 6 000 tokens per sekund på forbrukerhardware. MIT-lisens, open source.
Open source video pipeline – én prompt til ferdig film med FLUX.2 og Wan2.2
En open source pipeline tar én setning og leverer ferdig cinematic MP4 med karakterer, musikk og voice-over på 9 språk – alt på én AMD Instinct MI300X GPU på 45 minutter. FLUX.2 klein for keyframes, Wan2.2-I2V for animering, Vision Critic med auto-retry for kvalitetskontroll. Alle modeller Apache 2.0 eller MIT.
TwELL – Sakana AI og NVIDIA gir LLM-er 20,5% raskere inferens med CUDA-kjerner
Sakana AI og NVIDIA har utviklet TwELL – et CUDA-optimert sparse dataformat som gir opptil 20,5% raskere inferens og 21,9% raskere trening av LLM-er. Teknikken bruker L1-regularisering og ReLU for å skape 99,5% sparsity i feedforward-lagene, og egne CUDA-kjerner for å omsette det til reell GPU-gjennomstrøming.