NuExtract3 - Jan Sverre ved skrivebordet med dokumenter og holografisk JSON-ekstraksjon

NuExtract3 – open source 4B VLM for OCR og strukturert dokumentekstraksjon

NuExtract3 er en 4B open-weight VLM fra Numind som slår Qwen3.5-9B på strukturert dokumentekstraksjon. Apache 2.0-lisens, gratis demo på HuggingFace.
Jan Sverre i tolkeboks med sanntidsoversettelse på skjerm - Qwen3.5-LiveTranslate-Flash

Qwen3.5-LiveTranslate-Flash – sanntidsoversettelse på 2,8 sekunder

Alibabas Qwen3.5-LiveTranslate-Flash oversetter tale og video på 2,8 sekunder på tvers av 60 språk – med stemmekloning, leppeavlesning og domenespesifikk terminologi.
Jan Sverre jobber i hjemmelaben om natten med llama.cpp og Qwen 3.6 27B MTP på RTX 3090

llama.cpp b9200 + Qwen 3.6 27B MTP – slik får du Hermes Agent til å fly på RTX 3090

llama.cpp b9200 fikser MTP memory traffic overhead. Med riktig konfig på Qwen 3.6 27B mtp doblet draft acceptance rate for Hermes Agent på RTX 3090.
Jan Sverre ved skrivebordet med llama.cpp-terminaler som viser MTP-aktivert inferens

MTP merget inn i llama.cpp – nå kan alle kjøre det

PR 22673 er merget inn i llama.cpp master. MTP-støtte gir 1,9x til 2,5x raskere inferens lokalt – her er hva du trenger å vite og hvordan du aktiverer det.
Jan Sverre Bauge sitter med MacBook Pro og ser på terminalen som viser MTP-ytelse på 34 tokens per sekund

MTP + TurboQuant på LLaMA.cpp – Qwen 27B til 34 tokens per sekund på MacBook

Multi-Token Prediction kombinert med TurboQuant gir Qwen 27B 34 tokens per sekund på MacBook Pro M5 Max – en økning på 40% uten ekstra kostnad.
Jan Sverre holder et glødende kinesisk AI-øye og studerer Qwen 3.6 Plus Preview med skeptisk nysgjerrighet

Qwen 3.6 på OpenRouter – 1 million token kontekst og gratis preview

Qwen 3.6 Plus Preview dukket opp på OpenRouter 30. mars 2026 uten noen offisiell kunngjøring fra Alibaba. Modellen har 1 million token kontekstvindu, innebygd reasoning og er gratis tilgjengelig akkurat nå – men med forbehold om kinesisk datainnsamling.