Siste nytt
Luce DFlash og PFlash på AMD Strix Halo – 2,23x raskere lokal inferens med Qwen3.6-27B
Luce DFlash og PFlash er nå portert til AMD Ryzen AI MAX+ 395 (Strix Halo) med 128 GB unified memory. Qwen3.6-27B kjører 2,23 ganger raskere i decode og 3,05 ganger raskere i prefill enn llama.cpp HIP. MIT-lisens, åpen kildekode.
Needle – 26M parameter modell distillerer Gemini tool calling til forbrukerhardware
Needle er en 26 millioner parameter modell fra Cactus Compute som distillerer Gemini 3.1 tool calling ned i en «Simple Attention Network». Kjører 6 000 tokens per sekund på forbrukerhardware. MIT-lisens, open source.