Jan Sverre ser på ytelsestall fra BeeLlama DFlash på RTX 3090 - 177 tokens per sekund

Slik får du nesten 5x raskere lokal AI på én RTX 3090 – BeeLlama v0.2.0 forklart

BeeLlama v0.2.0 gir opptil 4,9x raskere tekstgenerering med Gemma 4 31B og Qwen3.6 27B på én enkelt RTX 3090 – uten ekstra maskinvare.
Jan Sverre studerer distribuert AI-inferens med to maskiner koblet via nettverk på hjemmekontoret

LARQL – kjør Gemma 4 26B på to billige maskiner med decoupled attention

LARQL er et open source Rust-prosjekt som lar deg kjøre Gemma 4 26B spredt over to billige maskiner ved å koble attention-mekanismen fra modellvektene. Distribuert lokal AI-inferens uten dyr GPU-rigg – her er hva det betyr i praksis.
Jan Sverre utforsker Gemma-4-31B-it-DFlash og spekulativ dekoding med DFlash-teknikken

Gemma-4-31B-it-DFlash – spekulativ dekoding for Googles åpne modell

Gemma-4-31B-it-DFlash er en ny variant av Googles Gemma 4 31B utgitt av Z Lab, med DFlash spekulativ dekoding som kan gi opptil 8x raskere inferens. Llama.cpp-støtte er under utvikling via PR #22105.
Jan Sverre utforsker Gemma 4 fra Google med Apache 2.0-lisens og fire nye åpne AI-modeller

Gemma 4 – Google lanserer åpne AI-modeller med Apache 2.0-lisens

Google lanserte Gemma 4 den 2. april 2026 med Apache 2.0-lisens – den første Gemma-modellen som er fullt åpen for kommersiell bruk. Fire varianter fra 2,3 til 31 milliarder parametere, multimodal støtte og 128-256K kontekstvindu.