Innhold Vis
MiniCPM5-1B er en 1,08 milliarder parameter-modell fra OpenBMB som faktisk kan resonnere – og den kjører lokalt via Ollama, llama.cpp eller LM Studio. Det er et par år siden 1B-modeller ble sett på som leker, men de beste av dem i dag gjør ting som ville overrasket selv erfarne brukere for 12 måneder siden.
MiniCPM5 er femte generasjon i OpenBMBs serie med kompakte modeller, og denne 1B-varianten er den minste i familien. Den er bygget på standard Llama-arkitektur, bruker Apache 2.0-lisens og er tilgjengelig i GGUF-format – altså klar til å laste ned og kjøre akkurat nå.
Det som skiller den fra de fleste andre 1B-modeller er tre ting: hybrid reasoning som slås av og på med én parameter, 131 072 tokens kontekstvindu, og innebygd tool use via XML-basert verktøykalling. Ikke akkurat det du forventer av en modell som tar noen få GB plass.
Hva er MiniCPM5-1B?
MiniCPM5-1B er en kausal språkmodell fra OpenBMB – en open source-organisasjon tilknyttet Tsinghua-universitetet i Beijing. Modellen har 1,08 milliarder totale parametere, men bare 679 millioner av dem er ikke-embedding-parametere, noe som betyr at den er mer effektiv enn parametertallet alene antyder.
Arkitektonisk er det standard Llama (LlamaForCausalLM), noe som er en fordel: ingen egne kjerner eller spesialtilpasset programvare. Den fungerer med alle vanlige inference-backends som Transformers, vLLM, llama.cpp og Ollama. Det er bevisst – OpenBMB vil at den skal være lett å ta i bruk uansett oppsett.
Treningsopplegget er det som gjør den interessant. MiniCPM5-1B har gått gjennom tre faser: basislæring, mellomtrening for spesialisering, og deretter post-training med SFT (supervised fine-tuning), RL (reinforcement learning) og OPD (on-policy distillation). Kombinasjonen av RL og OPD gir i snitt 16 poeng forbedring på matematikk, kode og instruksjonsfølging sammenlignet med bare SFT – ifølge modellkortet på HuggingFace.

Hva betyr hybrid reasoning i praksis?
Det er her det blir genuint interessant. MiniCPM5-1B er ett enkelt checkpoint – én modell – men den oppfører seg ulikt avhengig av om du slår på enable_thinking eller ikke. Med thinking aktivert bruker modellen en -blokk til å resonnere seg frem til svaret. Uten thinking er den en rask assistent som svarer direkte.
Parameteranbefalingene fra OpenBMB er: temperatur 0,9 og top-p 0,95 med thinking aktivert, temperatur 0,7 og top-p 0,95 uten. Det er ikke magiske tall – det handler om at reasoning-modus trenger litt mer variasjon for å utforske problemrommet, mens rask assistent-modus er bedre tjent med litt mer deterministisk output.
I praksis betyr dette at du kan bruke samme lokalt kjørende modell til to ulike formål: rask konteksthjelp og mer gjennomtenkt problemløsning. For en lokal modell på 1B parametere er det et ganske elegant design. Qwen3 og Qwen3.5 i samme størrelsesklasse har lignende hybrid-opplegg, men MiniCPM5 hevder å slå dem på tool use og agentic benchmarks.
Benchmarks – hva scorer den faktisk?
MiniCPM5-1B scorer 42,57 i gjennomsnitt på tvers av reasoning, kunnskap, kode, instruksjonsfølging, matematikk, logikk og agentiske oppgaver. Til sammenligning lå forrige generasjon 1B-modeller på rundt 35,61 i snitt – en forbedring på nesten 7 poeng. Det er ikke småtteri i en størrelsesklasse der ethvert poeng er vanskelig å hente.
Modellen er sammenlignet direkte med LFM2.5-1.2B-Thinking fra Liquid AI, Qwen3-0.6B med thinking og Qwen3.5-0.8B med thinking. Den klarer seg best på tool use, kode og vanskelig reasoning – og verst på ren faktakunnskap, noe som ikke er overraskende for en så liten modell.
En annen forbedring er at overlong responses er redusert med 29 prosentpoeng. Det er noe som plager mange reasoning-modeller: de resonnerer seg i hytt og pine og spytter ut svar som er lengre enn selve problemet. Her ser det ut til at RL-treningen har hjulpet.
Hvordan kjører du MiniCPM5-1B lokalt?
Enkleste vei er via Ollama – GGUF-filer er tilgjengelig på HuggingFace. Installer Ollama, last ned modellen, og kjør. Alternativt via LM Studio med samme GGUF-format. For Apple Silicon-brukere finnes MLX-format og 4-bit kvantisert variant.
Vil du ha OpenAI-kompatibelt API lokalt, er vLLM enkleste valg:
pip install vllm
vllm serve openbmb/MiniCPM5-1B --port 8000
For tool use spesifikt anbefaler OpenBMB SGLang-backend med den innebygde minicpm5-parseren, som konverterer modellens XML-stil verktøykalling til OpenAI-kompatibelt format. Det er praktisk om du allerede har apper eller klienter som forventer OpenAI tool-format.
Python-koden er grei nok for alle som har kjørt Transformers før. Den eneste forskjellen fra en vanlig modell er enable_thinking-parameteren i apply_chat_template. Ellers er det samme oppsett som du kjenner fra Qwen eller andre HuggingFace-modeller.

Passer MiniCPM5-1B for deg?
Det avhenger av hva du skal bruke den til. Til rask lokal chat er det modeller med bedre norsk-forståelse som kan passe bedre – 1B er lite, og norsk er ikke primærspråket her. Men til agentiske arbeidsflyter, kodingsassistanse og tool use lokalt er dette faktisk et seriøst alternativ. 131 000 tokens kontekstvindu på en 1B-modell er generøst – det lar deg sende store kodebaser eller lange dokumenter uten å klippe.
Jeg er alltid litt skeptisk til kinesiske modeller av prinsipp, men open source med Apache 2.0-lisens og åpent treningsdatasett (Ultra-FineWeb, UltraData-Math, UltraData-SFT-2605) er transparens som fortjener anerkjennelse. Du kan faktisk etterprøve hva modellen er trent på.
For de som allerede kjører lokale modeller via Ollama og leter etter noe som kan håndtere litt reasoning uten å kreve 8-16 GB VRAM – og som har lest om MiniCPM-V 4.6 på Orange Pi – er MiniCPM5-1B verdt å teste. Den er ikke en erstatning for Claude eller GPT-4o, men det er den ikke ment å være heller. Den er en effektiv liten modell som gjør jobben sin på hardware du allerede har.
Modellen er tilgjengelig på HuggingFace i BF16, GGUF og MLX-format – og GitHub-repoet til OpenBMB har eksempler for alle de vanlige inference-backends. Er du nysgjerrig på hva som skjer i segmentet for kompakte, effektive modeller, er dette en god kilde å følge med på. Se også denne guiden om lokal LLM som personlig kunnskapsbase hvis du vil ha et praktisk oppsett for slike modeller.