Jan Sverre ser skeptisk på NVIDIA sin kvantisering av Alibabas Qwen3-27B modell for serverklasse GPU-er

Qwen3.6-27B i NVFP4 – NVIDIA kvantiserer Alibabas modell for Hopper og Blackwell

NVIDIA har kvantisert Qwen3.6-27B til NVFP4-format for Hopper og Blackwell GPU-er. Her er hva det betyr i praksis – og hvem det faktisk er relevant for.
Mann i hettegenser i et fremtidsrettet datasenter med oransje oscillerende lys fra server-rader

Kan Un-0 kutte AI-strømregningen med 1 000 ganger? Databricks-veteran mener ja

Naveen Rao, tidligere AI-sjef hos Databricks, hevder at hans nye selskap Unconventional AI kan kutte strømforbruket ved AI-inferens med 1 000 ganger – og lanserte i går bildegeneratoren Un-0 som bevis på konseptet.
Jan Sverre holder og undersøker en glødende AI-inferens-chip fra OpenAI og Broadcom

OpenAI og Broadcom lanserte Jalapeño – en chip bygd utelukkende for AI-inferens

OpenAI og Broadcom avslørte Jalapeño – en egenutviklet inferens-chip på TSMCs 3nm-prosess som skal gjøre AI-drift billigere og uavhengig av Nvidia.
Jan Sverre utforsker DFlash spekulativ dekoding - parallell token-generering visualisert som lysstrømmer i et serverrom

DFlash: slik kan spekulativ dekoding gi deg opptil 6x raskere AI-inferens

DFlash fra UC San Diego bruker block diffusion og KV injection for å generere hele token-blokker parallelt – og rapporterer opptil 6x lossless speedup på Qwen3-8B. Her er hva det betyr i praksis.
Jan Sverre i et moderne datasenter - Groq henter 650 millioner dollar i ny kapital

Groq tapte grunnleggeren til Nvidia – og hentet 7 milliarder kroner likevel

Groq bekreftet i går en finansieringsrunde på 650 millioner dollar etter at Nvidia hentet ut grunnleggeren og lisensierte teknologien. Nå satser selskapet tungt på neocloud-infrastruktur med 13 datasentre og et helt nytt lederteam.
Mann med hettegenser lytter konsentrert til AI-generert norsk tale på hjemmekontor med terminal-skjerm

Chatterbox: lokal, gratis norsk stemmekloning – men bare hvis du gjør det riktig

Chatterbox lover lokal, gratis norsk stemmekloning uten sky. Jeg testet det på RTX 4090 – her er hva som faktisk funker, og hva som gjør det syntetisk.
Jan Sverre ser på en futuristisk fullkropps ultralydsscanner i et medisinsk spa-miljø

Midjourney Medical: AI-bildeselskapet vil skanne kroppen din i et spa

Midjourney, firmaet du kjenner fra AI-bildegenerering, har kunngjort sitt andre produkt: en fullkropps ultralydsscanner som skal stå i et spa ved Union Square i San Francisco. Slik fungerer den.
Jan Sverre Bauge ser på hybrid AI-ruting mellom lokal PC og sky

Perplexity løser personvernproblemet med lokal AI – slik fungerer den nye smartruting-funksjonen

Perplexity AI lanserer hybrid lokal-sky-ruting som automatisk velger om AI-oppgaver kjøres på din PC eller i skyen. Slik fungerer det i praksis.
Jan Sverre ser på ytelsestall fra BeeLlama DFlash på RTX 3090 - 177 tokens per sekund

Slik får du nesten 5x raskere lokal AI på én RTX 3090 – BeeLlama v0.2.0 forklart

BeeLlama v0.2.0 gir opptil 4,9x raskere tekstgenerering med Gemma 4 31B og Qwen3.6 27B på én enkelt RTX 3090 – uten ekstra maskinvare.
Jan Sverre holder en RISC-V mikrokontroller og ser på en skjerm med et pikselert katteransikt

DCGAN på en mikrokontroller – 12,6 millioner parametere, 512 KB RAM og katteransikt på 26 sekunder

En utvikler kjørte en DCGAN-modell med 12,6 millioner parametere på en RISC-V mikrokontroller med bare 512 KB SRAM. Her er hvordan det faktisk fungerer.