Browsing Tag

lokal AI

19 innlegg

Lokal AI deployment og edge computing

Jan Sverre midt i kappløpet mellom Xiaomis hovedmodell og DFlash-akseleratoren

MiMo-V2.5-DFlash kan gjøre lokal AI raskere – men oppskriften mangler

MiMo-V2.5-DFlash har fått offisielle vekter på Hugging Face. Se hva Xiaomi har publisert, hvordan DFlash virker og hvorfor ytelsen fortsatt er ukjent.

13. juli 2026
13 visninger
7 minutter lesetid

Jan Sverre bruker visuell AI til å finne objekter i en fysisk scene

Moondream 3.1 gjør lokal bildeanalyse med 2 milliarder aktive parametere

Moondream 3.1 er en lokal synsspråkmodell for bildeanalyse. Se hva 2 milliarder aktive parametere, fire funksjoner, API-pris og lisens betyr i praksis.

13. juli 2026
14 visninger
7 minutter lesetid

Jan Sverre med åpen AI-modell i servermiljø

Tencent Hy3 er ute med Apache 2.0 – 295B parametre og 21B aktive

Tencent Hy3 er ute med Apache 2.0, 295B parametre, 21B aktive og 256K kontekst. For norske AI-byggere er lisensen mer praktisk enn benchmarkene akkurat nå.

6. juli 2026
36 visninger
7 minutter lesetid

Mann med hettegenser lytter konsentrert til AI-generert norsk tale på hjemmekontor med terminal-skjerm

Chatterbox: lokal, gratis norsk stemmekloning – men bare hvis du gjør det riktig

Chatterbox lover lokal, gratis norsk stemmekloning uten sky. Jeg testet det på RTX 4090 – her er hva som faktisk funker, og hva som gjør det syntetisk.

20. juni 2026
58 visninger
8 minutter lesetid

Jan Sverre ser på kode på en terminal i et serverrom, belyst av LED-lys fra rackmonterte servere

North Mini Code kjører på én GPU – det er hele poenget

Coheres nye kodingsmodell North Mini Code er en 30B MoE-modell med bare 3B aktive parametre – laget for å kjøre på én H100 og håndtere agentic coding.

11. juni 2026
75 visninger
5 minutter lesetid

Jan Sverre Bauge ser på hybrid AI-ruting mellom lokal PC og sky

Perplexity løser personvernproblemet med lokal AI – slik fungerer den nye smartruting-funksjonen

Perplexity AI lanserer hybrid lokal-sky-ruting som automatisk velger om AI-oppgaver kjøres på din PC eller i skyen. Slik fungerer det i praksis.

5. juni 2026
77 visninger
4 minutter lesetid

Jan Sverre Bauge som kaptein ved roret på et teknologi-fartøy i åpent hav

PewDiePie brukte et år på sitt eget AI-arbeidsrom – her er hva Odysseus faktisk er

PewDiePie har laget et selv-hostet AI-arbeidsrom kalt Odysseus. Det er ikke et ChatGPT-alternativ – det er cockpiten rundt modellen du selv velger. Her er hva det faktisk er.

1. juni 2026
133 visninger
8 minutter lesetid

Jan Sverre sammenligner priser på frontier-AI versus lokal AI

Er frontier-AI for dyrt? Slik beregner du om lokal AI lønner seg

Prisen på GPT-5.5 er tredoblet på åtte måneder. Her er regnestykket som avgjør om lokal AI og open source er verdt overgangen for deg.

28. mai 2026
83 visninger
4 minutter lesetid

Jan Sverre ser på ytelsestall fra BeeLlama DFlash på RTX 3090 - 177 tokens per sekund

Slik får du nesten 5x raskere lokal AI på én RTX 3090 – BeeLlama v0.2.0 forklart

BeeLlama v0.2.0 gir opptil 4,9x raskere tekstgenerering med Gemma 4 31B og Qwen3.6 27B på én enkelt RTX 3090 – uten ekstra maskinvare.

27. mai 2026
87 visninger
5 minutter lesetid

Jan Sverre undersøker MiniCPM5-1B som kjører lokalt på en liten ARM-enhet

MiniCPM5-1B – reasoning og tool use på 1 milliard parametere

MiniCPM5-1B er en 1B-modell med hybrid reasoning, 131 000 tokens kontekst og tool use – og kjører lokalt via Ollama. Her er hva den faktisk kan.

26. mai 2026
100 visninger
4 minutter lesetid

Jan Sverre studerer ytelsesdata fra DeepSeek V4 Flash kjørt på fire RTX 2080 Ti-er

DeepSeek V4 Flash lokalt på fire RTX 2080 Ti – 255 tokens per sekund for under 25 000 kr

Noen kjørte DeepSeek V4 Flash lokalt på fire brukte RTX 2080 Ti-er til under 25 000 kr – og fikk 255 prefill tokens per sekund. Her er hva de brukte og hvordan det fungerer.

20. mai 2026
131 visninger
4 minutter lesetid

Jan Sverre utforsker Gemma-4-31B-it-DFlash og spekulativ dekoding med DFlash-teknikken

Gemma-4-31B-it-DFlash – spekulativ dekoding for Googles åpne modell

Gemma-4-31B-it-DFlash er en ny variant av Googles Gemma 4 31B utgitt av Z Lab, med DFlash spekulativ dekoding som kan gi opptil 8x raskere inferens. Llama.cpp-støtte er under utvikling via PR #22105.

1. mai 2026
156 visninger
4 minutter lesetid

Mann i hettegenser studerer ytelsessammenligning mellom Ollama og llama.cpp på terminal-skjerm i mørkt hjemmekontor

Trenger lokal LLM-økosystemet Ollama? Kanskje ikke

Ollama er populært, men er det det beste verktøyet for lokal AI-kjøring? llama.cpp er 1,8x raskere, og alternativer som LM Studio, Jan og ramalama er modnet. Her er hva debatten handler om.

16. april 2026
181 visninger
4 minutter lesetid

Jan Sverre inspiserer en AI-modellplan der MTP-seksjonen er merket som utilgjengelig og låst til LiteRT

Gemma 4 og MTP – Google fjernet ytelsesboost fra offentlig modell

Google bekreftet via Hugging Face at Multi-Token Prediction er fjernet fra de offentlige Gemma 4-modellene. Den fulle versjonen med MTP finnes bare i LiteRT-formatet – som har 8 000 nedlastninger mot over én million for GGUF og safetensors. DeepSeek og Qwen gjorde det ikke slik.

9. april 2026
166 visninger
5 minutter lesetid

lokal AI

MiMo-V2.5-DFlash kan gjøre lokal AI raskere – men oppskriften mangler

Moondream 3.1 gjør lokal bildeanalyse med 2 milliarder aktive parametere

Tencent Hy3 er ute med Apache 2.0 – 295B parametre og 21B aktive

Chatterbox: lokal, gratis norsk stemmekloning – men bare hvis du gjør det riktig

North Mini Code kjører på én GPU – det er hele poenget

Perplexity løser personvernproblemet med lokal AI – slik fungerer den nye smartruting-funksjonen

PewDiePie brukte et år på sitt eget AI-arbeidsrom – her er hva Odysseus faktisk er

Er frontier-AI for dyrt? Slik beregner du om lokal AI lønner seg

Slik får du nesten 5x raskere lokal AI på én RTX 3090 – BeeLlama v0.2.0 forklart

MiniCPM5-1B – reasoning og tool use på 1 milliard parametere

DeepSeek V4 Flash lokalt på fire RTX 2080 Ti – 255 tokens per sekund for under 25 000 kr

Gemma-4-31B-it-DFlash – spekulativ dekoding for Googles åpne modell

Trenger lokal LLM-økosystemet Ollama? Kanskje ikke

Gemma 4 og MTP – Google fjernet ytelsesboost fra offentlig modell

Glutenfri sitronkake – min beste oppskrift

Amazon droppet Sam Altman-filmen etter 50 milliarder til OpenAI – nå vil ingen ha den

Suno AI – 150 Låter Testet: Hva Funker og Hva Er Bortkastet Tid

Claude AI – pris, funksjoner og norsk guide (2026)

Suno AI Copyright 2026 – Opphavsrett og Rettigheter for AI-Musikk

Glutenfri sitronkake – min beste oppskrift

Kaffegrut i Hagen – Slik Bruker Du Det som Gjødsel og Skadedyrbekjemper

Sterk Chili Kaffe

Stekt Kylling i Airfryer