Alt jeg har skrevet om
AI-Modeller
156 innlegg
Her tester og vurderer jeg AI-modellene som faktisk betyr noe. Fra Claude og GPT til Gemini, Llama og lokale modeller du kan kjøre på din egen maskin. Ingen PR-prat – bare ærlige erfaringer fra en som bruker disse verktøyene hver eneste dag. Hva funker, hva funker ikke, og hva er bare hype?
Luce DFlash og PFlash på AMD Strix Halo – 2,23x raskere lokal inferens med Qwen3.6-27B
Luce DFlash og PFlash er nå portert til AMD Ryzen AI MAX+ 395 (Strix Halo) med 128 GB unified memory. Qwen3.6-27B kjører 2,23 ganger raskere i decode og 3,05 ganger raskere i prefill enn llama.cpp HIP. MIT-lisens, åpen kildekode.
Needle – 26M parameter modell distillerer Gemini tool calling til forbrukerhardware
Needle er en 26 millioner parameter modell fra Cactus Compute som distillerer Gemini 3.1 tool calling ned i en «Simple Attention Network». Kjører 6 000 tokens per sekund på forbrukerhardware. MIT-lisens, open source.
DeepSeek V4 full paper – FP4 QAT, CSA og stabilitetsmekanismene forklart
Det fullstendige DeepSeek V4-papiret er ute – og det er vesentlig tykkere enn april-forhåndsvisningen. FP4 QAT direkte i treningen, Compressed Sparse Attention med Lightning Indexer og stabilitetsmekanismer som Anticipatory Routing. Her er hva som faktisk er interessant.