Kan en AI-modell på 230 millioner parametere faktisk brukes til noe? LFM2.5 sier ja

Innhold Vis

230 millioner parametere og 42 tokens per sekund på en Raspberry Pi 5. Det er ikke tall du ser fra de store laboratoriene som skriker om milliardmodeller, men det er nettopp det Liquid AI leverte da de slapp LFM2.5-230M i helgen.

De fleste mini-modeller havner i én av to kategorier: enten leker de stor og skuffer i praksis, eller så er de ærlige nok til å innrømme hva de er laget for. LFM2.5-230M hører til den siste gruppen. Modellen er åpen, veier under 400 MB i 4-bit versjon, og er eksplisitt bygget for én ting – å trekke ut strukturert data og kalle verktøy på hardware som ikke har råd til å svette.

Det er en litt annen filosofi enn det vi er vant til. Og det er verdt å se nærmere på hva den faktisk leverer.

Hva er LFM2.5-230M, og hva gjør den godt?

LFM2.5-230M er Liquid AIs minste modell hittil. Den bygger på LFM2-arkitekturen, som blander to teknologier i stedet for å bruke ren attention som de fleste transformermodeller gjør. Av 14 lag totalt er 8 «double-gated LIV convolution»-blokker og 6 er klassisk grouped-query attention (GQA). Tanken er at convolution-lagene håndterer langt kontekst effektivt, mens attention-lagene tar seg av relasjoner som krever mer presisjon.

Kontekstvinduet er på 32 768 tokens – romslig for en modell i denne klassen – og vokabularstørrelsen er 65 536. Modellen støtter ti språk, inkludert engelsk, kinesisk, arabisk og japansk. Norsk er ikke nevnt eksplisitt.

Det viktige å forstå er hva modellen er designet for. Liquid AI er tydelige: dette er ikke en allrounder. Den er bygget for data-ekstraksjon og tool use på edge-hardware. Ikke for kreativ skriving, avansert matematikk eller kodegenerering – og den lykkes ikke spesielt bra der heller, ifølge egne tall.

Hvor fort kjører den, og på hva?

Hastighetstallene er det mest konkrete Liquid AI oppgir, og de er interessante. På en Samsung Galaxy S25 Ultra kjører modellen på 213 tokens per sekund. På en Raspberry Pi 5 leverer den 42 tokens per sekund. For referanse: et vanlig samtaletempo for en person er rundt 3-4 ord i sekundet, og én token tilsvarer omtrent 0,75 ord.

Det betyr at selv på den lille Raspberry Pi-en produserer modellen tekst raskere enn noen leser den. Det er ikke trivialt når du snakker om hardware som koster 800-1200 kroner.

Raspberry Pi 5 kretskortet med blå glødelys - edge AI hardware for LFM2.5 — Raspberry Pi 5 er nok til å kjøre LFM2.5-230M i 4-bit kvantisert versjon på 293-375 MB minnefotavtrykk.

Minnefotavtrykket i 4-bit kvantisert versjon er 293-375 MB. Det er lite nok til å ligge i RAM på nær sagt alt som finnes av mobilhardware og enkortmaskiner. Ingen sky, ingen API-kall, ingen latenstid over nettet.

Hvordan hevder den seg mot andre småmodeller?

Her er det verdt å lese tallene med litt skepsis, men det er likevel noe å hente. På IFEval-testen, som måler instruksjonsfølging, scorer LFM2.5-230M 71,71 – mot 59,94 for Qwen3.5-0.8B og 63,49 for Gemma 3 1B. Det er altså en 230M-modell som slår modeller med tre til fem ganger så mange parametere på akkurat det den er trent for.

Men ta en titt på MMLU-Pro, som er en bred kunnnskapstest, og bildet snur. Der scorer LFM2.5-230M 20,25, mot Qwen3.5-0.8Bs 37,42. En rød tråd i alt Liquid AI kommuniserer er at spesialisering er et bevisst valg, ikke en svakhet de gjemmer unna. Det er en ærlig posisjonering.

Visuell sammenligning av småmodeller 230M mot 800M og 1B parametere på IFEval benchmark — LFM2.5-230M scorer 71,71 på IFEval mot 59,94 for Qwen3.5-0.8B og 63,49 for Gemma 3 1B – til tross for tre til fem ganger færre parametere.

For deg som vil sammenligne med andre åpne modeller i tilsvarende størrelsesklasse, har jeg skrevet om Qwen3.5 og hva som gjør en lokal LLM faktisk brukbar i 2026. LFM2.5 er et annet dyr enn Qwen3.5 – men de er begge del av en interessant bevegelse mot at AI ikke lenger krever en sky-tilkobling.

Hvilke rammeverk støttes, og hvordan bruker du den?

Liquid AI har rullet ut det de kaller «day-one support» for llama.cpp, MLX, vLLM, SGLang og ONNX. Det er en god liste. llama.cpp betyr at du kan kjøre den på CPU uten GPU – noe som er avgjørende for Raspberry Pi og mange embedded-scenarier. MLX betyr Apple Silicon. vLLM og SGLang betyr server-side batching med god ytelse. ONNX betyr portabilitet til nær sagt hvilken som helst plattform.

Modellen krever Transformers 5.0.0 eller nyere. Liquid AI anbefaler disse parameterne for best resultat: temperatur 0,1, top_k 50 og repetition_penalty 1,05. Lavere temperatur betyr mer deterministiske svar – fornuftig for ekstraksjon av strukturerte data der du vil ha presise, forutsigbare svar fremfor kreativ variasjon.

Du finner modellen åpent tilgjengelig på Hugging Face under Liquid AIs egen lisens (lfm1.0). Den er ikke Apache 2.0 eller MIT, så sjekk vilkårene hvis du planlegger kommersiell bruk.

Hvem er dette faktisk nyttig for?

Ser du på bruksområdene, er LFM2.5-230M interessant for noen ganske spesifikke scenarier. Automatiseringsverktøy som n8n og lignende systemer hvor du vil kjøre et enkelt AI-steg lokalt uten å sende data til en ekstern API. Vil du ha en oversikt over alternativene, har jeg sett på hvilken lokal AI-modell som passer til hva. Edge-enheter i industrielle sammenhenger hvor data ikke kan forlate lokalnettverket. Mobilapper som trenger litt AI-funksjonalitet uten sky-avhengighet. Billige ARM-servere der du vil prosessere dokumenter uten å betale per token.

Det er ikke en modell du velger for å erstatte Claude eller GPT-4o på komplekse oppgaver. Men for å parse en kvittering, trekke ut feltene fra et skjema, eller kalle et API basert på brukerinput – der er 230M parametere og 42 tokens per sekund på en Raspberry Pi et ganske overraskende godt argument.

Det finnes en bredere trend her som er verdt å følge med på. For ikke lenge siden skrev jeg om de beste open source-modellene for tekstgenerering – men tekstgenerering er bare én del av hva lokale modeller nå begynner å håndtere. Ekstraksjon, klassifikasjon og verktøykall på edge-hardware er en annen gren som vokser raskt.

Ofte stilte spørsmål

Kan LFM2.5-230M kjøres på en vanlig PC uten GPU?

Ja. Via llama.cpp kan modellen kjøres på CPU alene. Den veier 293-375 MB i 4-bit versjon, så selv en eldre maskin med begrenset RAM håndterer dette uten problemer.

Hva er forskjellen på LFM2.5-230M og Qwen3.5-0.8B?

LFM2.5-230M er betydelig mindre (230M mot 800M parametere) og spesialisert for instruksjonsfølging og data-ekstraksjon – der slår den faktisk Qwen3.5-0.8B. Men på bred kunnskap og resonering er Qwen3.5-0.8B klart sterkere.

Er LFM2.5-230M gratis å bruke kommersielt?

Modellen er åpen på Hugging Face, men bruker Liquid AIs egen lisens (lfm1.0) – ikke Apache 2.0 eller MIT. Sjekk lisensvilkårene på Hugging Face før du bruker den i kommersielle produkter.

Støtter modellen norsk?

Liquid AI oppgir støtte for ti språk, inkludert engelsk, kinesisk, arabisk og japansk. Norsk er ikke nevnt eksplisitt i dokumentasjonen. Det betyr ikke at den ikke kan noe norsk, men forvent ikke god kvalitet på norsk sammenlignet med engelskspråklige oppgaver.