NuExtract3 - Jan Sverre ved skrivebordet med dokumenter og holografisk JSON-ekstraksjon

NuExtract3 – open source 4B VLM for OCR og strukturert dokumentekstraksjon

NuExtract3 er en 4B open-weight VLM fra Numind som slår Qwen3.5-9B på strukturert dokumentekstraksjon. Apache 2.0-lisens, gratis demo på HuggingFace.
Jan Sverre ser på holografisk Qwen3-display i verkstedet - skeptisk men nysgjerrig blikk

Qwen3 open weight er ute – og LocalLLaMA kaller det ny toppmodell

Alibabas Qwen3 open weight-modell er tilgjengelig for lokal kjøring. Apache 2.0-lisens, 256K kontekst, thinking mode – og LocalLLaMA-fellesskapet er begeistret.
Jan Sverre i tolkeboks med sanntidsoversettelse på skjerm - Qwen3.5-LiveTranslate-Flash

Qwen3.5-LiveTranslate-Flash – sanntidsoversettelse på 2,8 sekunder

Alibabas Qwen3.5-LiveTranslate-Flash oversetter tale og video på 2,8 sekunder på tvers av 60 språk – med stemmekloning, leppeavlesning og domenespesifikk terminologi.
Jan Sverre ved mixebord i hjemmestudio med Stable Audio 3 lydgenerering på skjerm

Stable Audio 3 – open weights tekst-til-lyd med 0,6 milliarder parametere

Stability AI lanserer Stable Audio 3 med tre open-weights modeller for musikk og lydeffekter. Kjører lokalt på MacBook, 120 sekunder på under 6 sekunder.
Jan Sverre utforsker Gemini Omni video-AI i et futuristisk redigeringsstudio

Gemini Omni – Googles nye video-AI lar deg redigere film som tekst

Gemini Omni er Googles nye video-AI som lar deg redigere og generere video gjennom naturlig samtale. Slik fungerer det, og hva det kan brukes til.
Jan Sverre i et futuristisk kontrollrom med flytende AI-agent-noder fra Google Antigravity 2.0

Google Antigravity 2.0 – agent-plattformen som erstatter Gemini CLI

Google lanserte Antigravity 2.0 på I/O 2026 – en standalone agent-plattform med CLI, SDK og Managed Agents basert på Gemini 3.5 Flash. Her er hva det faktisk innebærer og hva det koster.
Jan Sverre studerer ytelsesdata fra DeepSeek V4 Flash kjørt på fire RTX 2080 Ti-er

DeepSeek V4 Flash lokalt på fire RTX 2080 Ti – 255 tokens per sekund for under 25 000 kr

Noen kjørte DeepSeek V4 Flash lokalt på fire brukte RTX 2080 Ti-er til under 25 000 kr – og fikk 255 prefill tokens per sekund. Her er hva de brukte og hvordan det fungerer.
Jan Sverre på gulvet med en liten robot som koder - SmallCode agent for lokale modeller

SmallCode – coding agent som faktisk fungerer med lokale modeller

SmallCode er en coding agent bygget fra bunnen for små lokale modeller. Resultatet: 87% benchmark-score med Gemma 4 på kun 4B aktive parametere – mot OpenCodes 75% med 14B-modeller.
Jan Sverre utforsker Lance, ByteDances 3B multimodale AI-modell for bilde og video

Lance – ByteDances 3B-modell for bilde og video i ett system

Lance er ByteDances nye 3B open source-modell som håndterer bildegenerering, videogenerering og bilderedigering i ett system. Apache 2.0-lisens, 40GB VRAM.
Jan Sverre ved skrivebordet med llama.cpp-terminaler som viser MTP-aktivert inferens

MTP merget inn i llama.cpp – nå kan alle kjøre det

PR 22673 er merget inn i llama.cpp master. MTP-støtte gir 1,9x til 2,5x raskere inferens lokalt – her er hva du trenger å vite og hvordan du aktiverer det.