MiniCPM5-1B er en 1,08 milliarder parameter-modell fra OpenBMB som faktisk kan resonnere – og den kjører lokalt via Ollama, llama.cpp eller LM Studio. Det er et par år siden 1B-modeller ble sett på som leker, men de beste av dem i dag gjør ting som ville overrasket selv erfarne brukere for 12 måneder siden.

MiniCPM5 er femte generasjon i OpenBMBs serie med kompakte modeller, og denne 1B-varianten er den minste i familien. Den er bygget på standard Llama-arkitektur, bruker Apache 2.0-lisens og er tilgjengelig i GGUF-format – altså klar til å laste ned og kjøre akkurat nå.

Det som skiller den fra de fleste andre 1B-modeller er tre ting: hybrid reasoning som slås av og på med én parameter, 131 072 tokens kontekstvindu, og innebygd tool use via XML-basert verktøykalling. Ikke akkurat det du forventer av en modell som tar noen få GB plass.

Hva er MiniCPM5-1B?

MiniCPM5-1B er en kausal språkmodell fra OpenBMB – en open source-organisasjon tilknyttet Tsinghua-universitetet i Beijing. Modellen har 1,08 milliarder totale parametere, men bare 679 millioner av dem er ikke-embedding-parametere, noe som betyr at den er mer effektiv enn parametertallet alene antyder.

Arkitektonisk er det standard Llama (LlamaForCausalLM), noe som er en fordel: ingen egne kjerner eller spesialtilpasset programvare. Den fungerer med alle vanlige inference-backends som Transformers, vLLM, llama.cpp og Ollama. Det er bevisst – OpenBMB vil at den skal være lett å ta i bruk uansett oppsett.

Treningsopplegget er det som gjør den interessant. MiniCPM5-1B har gått gjennom tre faser: basislæring, mellomtrening for spesialisering, og deretter post-training med SFT (supervised fine-tuning), RL (reinforcement learning) og OPD (on-policy distillation). Kombinasjonen av RL og OPD gir i snitt 16 poeng forbedring på matematikk, kode og instruksjonsfølging sammenlignet med bare SFT – ifølge modellkortet på HuggingFace.

Diagram over MiniCPM5-1B hybrid reasoning og parametere - reasoning, tool use, kode og lang kontekst
Én modell, to moduser: hybrid reasoning slås på og av med enable_thinking-parameteren

Hva betyr hybrid reasoning i praksis?

Det er her det blir genuint interessant. MiniCPM5-1B er ett enkelt checkpoint – én modell – men den oppfører seg ulikt avhengig av om du slår på enable_thinking eller ikke. Med thinking aktivert bruker modellen en -blokk til å resonnere seg frem til svaret. Uten thinking er den en rask assistent som svarer direkte.

Parameteranbefalingene fra OpenBMB er: temperatur 0,9 og top-p 0,95 med thinking aktivert, temperatur 0,7 og top-p 0,95 uten. Det er ikke magiske tall – det handler om at reasoning-modus trenger litt mer variasjon for å utforske problemrommet, mens rask assistent-modus er bedre tjent med litt mer deterministisk output.

I praksis betyr dette at du kan bruke samme lokalt kjørende modell til to ulike formål: rask konteksthjelp og mer gjennomtenkt problemløsning. For en lokal modell på 1B parametere er det et ganske elegant design. Qwen3 og Qwen3.5 i samme størrelsesklasse har lignende hybrid-opplegg, men MiniCPM5 hevder å slå dem på tool use og agentic benchmarks.

Benchmarks – hva scorer den faktisk?

MiniCPM5-1B scorer 42,57 i gjennomsnitt på tvers av reasoning, kunnskap, kode, instruksjonsfølging, matematikk, logikk og agentiske oppgaver. Til sammenligning lå forrige generasjon 1B-modeller på rundt 35,61 i snitt – en forbedring på nesten 7 poeng. Det er ikke småtteri i en størrelsesklasse der ethvert poeng er vanskelig å hente.

Modellen er sammenlignet direkte med LFM2.5-1.2B-Thinking fra Liquid AI, Qwen3-0.6B med thinking og Qwen3.5-0.8B med thinking. Den klarer seg best på tool use, kode og vanskelig reasoning – og verst på ren faktakunnskap, noe som ikke er overraskende for en så liten modell.

En annen forbedring er at overlong responses er redusert med 29 prosentpoeng. Det er noe som plager mange reasoning-modeller: de resonnerer seg i hytt og pine og spytter ut svar som er lengre enn selve problemet. Her ser det ut til at RL-treningen har hjulpet.

Hvordan kjører du MiniCPM5-1B lokalt?

Enkleste vei er via Ollama – GGUF-filer er tilgjengelig på HuggingFace. Installer Ollama, last ned modellen, og kjør. Alternativt via LM Studio med samme GGUF-format. For Apple Silicon-brukere finnes MLX-format og 4-bit kvantisert variant.

Vil du ha OpenAI-kompatibelt API lokalt, er vLLM enkleste valg:

pip install vllm
vllm serve openbmb/MiniCPM5-1B --port 8000

For tool use spesifikt anbefaler OpenBMB SGLang-backend med den innebygde minicpm5-parseren, som konverterer modellens XML-stil verktøykalling til OpenAI-kompatibelt format. Det er praktisk om du allerede har apper eller klienter som forventer OpenAI tool-format.

Python-koden er grei nok for alle som har kjørt Transformers før. Den eneste forskjellen fra en vanlig modell er enable_thinking-parameteren i apply_chat_template. Ellers er det samme oppsett som du kjenner fra Qwen eller andre HuggingFace-modeller.

Terminal som viser Python-kode for å kjøre MiniCPM5-1B lokalt med Transformers og enable_thinking
Kjøre MiniCPM5-1B lokalt med Transformers – enable_thinking-parameteren styrer reasoning-modus

Passer MiniCPM5-1B for deg?

Det avhenger av hva du skal bruke den til. Til rask lokal chat er det modeller med bedre norsk-forståelse som kan passe bedre – 1B er lite, og norsk er ikke primærspråket her. Men til agentiske arbeidsflyter, kodingsassistanse og tool use lokalt er dette faktisk et seriøst alternativ. 131 000 tokens kontekstvindu på en 1B-modell er generøst – det lar deg sende store kodebaser eller lange dokumenter uten å klippe.

Jeg er alltid litt skeptisk til kinesiske modeller av prinsipp, men open source med Apache 2.0-lisens og åpent treningsdatasett (Ultra-FineWeb, UltraData-Math, UltraData-SFT-2605) er transparens som fortjener anerkjennelse. Du kan faktisk etterprøve hva modellen er trent på.

For de som allerede kjører lokale modeller via Ollama og leter etter noe som kan håndtere litt reasoning uten å kreve 8-16 GB VRAM – og som har lest om MiniCPM-V 4.6 på Orange Pi – er MiniCPM5-1B verdt å teste. Den er ikke en erstatning for Claude eller GPT-4o, men det er den ikke ment å være heller. Den er en effektiv liten modell som gjør jobben sin på hardware du allerede har.

Modellen er tilgjengelig på HuggingFace i BF16, GGUF og MLX-format – og GitHub-repoet til OpenBMB har eksempler for alle de vanlige inference-backends. Er du nysgjerrig på hva som skjer i segmentet for kompakte, effektive modeller, er dette en god kilde å følge med på. Se også denne guiden om lokal LLM som personlig kunnskapsbase hvis du vil ha et praktisk oppsett for slike modeller.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *

Meld deg på nyhetsbrevet

Få oppdateringer om AI nyhetene rett i inboxen!

Du liker kanskje denne også
Jan Sverre med headphones og lydmikser i boardroom-møte med forvirrede executives

Suno AI Copyright 2026 – Opphavsrett og Rettigheter for AI-Musikk

Kan du tjene penger på Suno-musikk? Her er en praktisk gjennomgang av rettigheter, risiko og hva du bør avklare før publisering.
Jan Sverre styrer et digitalt kontrollpanel omgitt av Claude AI-symboler og glødende lysstriper i et mørkt rom

Claude AI – pris, funksjoner og norsk guide (2026)

Alt om Claude AI i 2026 – priser i norske kroner, Claude Pro vs Max, Claude Code, og ærlig sammenligning med ChatGPT. Komplett norsk guide fra en som bruker Claude daglig.
Jan Sverre profesjonelt fotograf-kvalitet portrett AI-generert bildegenerering

Google NotebookLM

Google NotebookLM er en AI-assistent som gjør dokumenter om til interaktive samtaler, studieguidere og podcasts på norsk. Nå drevet av Gemini 3 Pro med nye funksjoner som infographics, slide decks og Deep Research. Komplett guide til gratis vs. Plus-versjon.
Jan Sverre tester GPT-5.2 ved en transparent OpenAI GPT-skjerm

GPT-5.2: Jeg testet OpenAIs nyeste modell – her er hva som faktisk fungerer

GPT-5.2 er ute med tre versjoner. Jeg har testet thinking-modellen, sammenlignet med 5.1, og funnet ut hva som faktisk er bedre. Her er mine erfaringer.