En 1 milliard parameter stor modell trent på 1000 dollar slår Metas Llama 3.2 3B på matematikk og resonnering. Sapient Intelligence – selskapet bak den hierarkiske resonneringsarkitekturen HRM – slapp HRM-Text 1B i mai 2026, og benchmark-chartene er interessante nok til å ta en titt, selv om du er skeptisk til markedsføringen.

Tallene er konkrete: 40 milliarder unike tokens, 16 GPUer, 1,9 dager trening og en oppgitt kostnad på rundt 1000 dollar. Det de hevder er at HRM-Text 1B er trent på 100 til 900 ganger mindre data enn konkurrentene – Gemma 3 4B, Llama 3.2 3B, Qwen 3.5 2B og Olmo 3 7B – og likevel matcher eller slår dem på sentrale benchmarks.

Det er en stor påstand. Og som alltid med benchmark-publiseringer fra ukjente aktører: tallene lyver ikke nødvendigvis, men det er verdt å grave litt i hva de faktisk viser.

Hva er HRM-Text 1B?

HRM-Text 1B er en ren tekstmodell på 1 milliard parametere, trent fra bunnen av av Sapient Intelligence. Selskapet er kjent fra før for HRM-arkitekturen – Hierarchical Reasoning Machine – en alternativ tilnærming til transformer-modeller som hevder bedre datautnyttelse gjennom hierarkisk resonneringsstruktur.

Modellen er trent på 40 milliarder unike tokens. Til sammenligning er Llama 3.2 3B trent på rundt 9 000 milliarder tokens – altså rundt 225 ganger mer data. Gemma 3 4B og Qwen 3.5 2B er trent på enda mer. At en modell trent på en brøkdel av dataen likevel hevder konkurransedyktige resultater, er enten genuint interessant eller et tegn på at benchmark-utvalget er gjort strategisk. Sannsynligvis litt av begge deler.

Arkitekturen er det som skiller HRM fra standard transformere. I stedet for at alle tokens behandles flatt i hvert lag, organiserer HRM hierarkier av abstraksjonsnivåer – en tilnærming som ligner mer på hvordan noen kognitive teorier beskriver menneskelig resonnering. Tanken er at modellen lærer mer robust kunnskap fra færre eksempler fordi representasjonene er strukturelt dypere.

Sammenligning av treningsdatamengde: HRM-Text 1B bruker 100-900 ganger mindre data enn Llama 3.2, Gemma 3 og Qwen
HRM-Text 1B er trent på 40 milliarder tokens – en brøkdel av hva Llama 3.2 3B, Gemma 3 4B og Qwen 3.5 2B bruker

Hva sier benchmarkene – og hva sier de ikke?

På MATH og DROP slår HRM-Text 1B Llama 3.2 3B direkte, ifølge Sapient Intelligences egne resultater. MATH er en standardbenchmark for matematisk resonnering på videregående-nivå. DROP (Discrete Reasoning Over Paragraphs) tester om modellen kan kombinere informasjon fra tekst og gjøre enkel aritmetikk for å svare riktig.

Begge disse benchmarkene er sensitive for resonneringsevne fremfor rå faktainnhenting – noe som er konsistent med det HRM-arkitekturen er designet for. Valget av benchmarks er altså ikke tilfeldig, og det er ikke et tegn på juks at selskapet velger å fremheve der de er best. Det er helt standard praksis.

Det som er verdt å merke seg er hva vi ikke vet: Hvordan er resultatene på MMLU, HellaSwag, ARC eller mer generelle evnebenchmarks? Og viktigst – er en 1B-modell faktisk nyttig i praksis sammenlignet med en 3B-modell, uavhengig av benchmark-poeng? En 3B-modell er fortsatt mer kapabel i daglig bruk, selv om en 1B-modell matcher den på en spesifikk oppgave.

Jeg er generelt skeptisk til benchmarks som primærargument, og det bør du også være. 600 kriterier som ikke er en benchmark er ofte mer relevant enn et enkelt tall fra en leaderboard. Men tallene her er konkrete nok til å ta på alvor.

Hva betyr 1000 dollar i treningskostnad?

Den oppgitte treningskostnaden på rundt 1000 dollar for hele pretrening-fasen er det som virkelig skiller seg ut. 16 GPUer i 1,9 dager tilsier en relativt beskjeden klynge – sannsynligvis A100 eller H100-instanser på cloud til markedspris.

For å sette det i kontekst: Llama 3.1 405B ble anslått å ha kostet titalls millioner dollar i GPU-tid. Selv Llama 3.2 3B – som nå brukes som referansemodell her – ble trent av Meta med ressurser de aller fleste ikke kan drømme om. At en liten organisasjon kan produsere en konkurransedyktig modell på 1000 dollar er et interessant signal om hvor arkitektur-valg faktisk kan gjøre en forskjell.

Dette er ikke unikt for HRM. Vi har sett lignende påstander fra Microsoft med Phi-serien, fra Google med Gemma og fra Apple med OpenELM – alle modeller som prøver å gjøre mye med lite. Meta Muse Spark er et annet eksempel på en modell som krever «over en størrelsesorden mindre beregningskraft enn Llama 4 Maverick» ifølge Metas egne tall. Effektivitetsargumentet er populært akkurat nå – og med gode grunner.

3D-visualisering av hierarkisk nevral nettverksarkitektur med abstraksjonsnivåer
HRM-arkitekturen organiserer kunnskap i hierarkiske abstraksjonsnivåer fremfor flat transformer-struktur

Er HRM-arkitekturen gjennomtestet?

Sapient Intelligence publiserte originalt HRM-paperet tidligere i 2025, og dette er den første tekstmodellen basert på arkitekturen som slippes offentlig. Det er et relativt lite og ukjent selskap, og det er fornuftig å vente på uavhengig evaluering før man legger for mye vekt på resultatene.

LocalLLaMA-fellesskapet er tradisjonelt flinke til å teste påstander selv. Erfaringen der er at modelleiere som poster benchmark-charts uten replikerbare evalueringsscripts ofte møter mye skepsis, og med rette. Det er foreløpig uklart om Sapient Intelligence leverer tilstrekkelig transparens rundt evalueringsmetodikk.

Modellen er tilgjengelig via Sapient Intelligences offisielle kanaler. Open source AI-guiden min gir god bakgrunn på hva «open weights» faktisk betyr og hva du bør sjekke før du stoler på en modell-publisering.

Hvem er dette relevant for?

En 1B-modell er primært interessant i to scenarioer: edge-deployment (modeller som kjører på enheter med begrenset minne og strøm) og forskning på effektiv trening. For praktisk bruk er en 3B-modell som Llama 3.2 fortsatt mer allsidig, og den kjører fint lokalt på de fleste maskiner med Ollama.

Det HRM-Text 1B potensielt representerer er mer interessant enn selve modellen: en demonstrasjon av at arkitektur-innovasjon kan kompensere for treningsdata-mangel på meningsfull måte. Hvis HRM-tilnærmingen lar seg skalere opp, og resultatene holder ved uavhengig validering, er det et eksempel på at det fremdeles er mye uutforsket terreng i AI-arkitektur utenfor transformer-paradigmet.

VL-JEPA fra Meta er et annet eksempel på en slik alternativ tilnærming – en modell som predikerer mening fremfor ord, med 50% færre parametere men bedre ytelse enn tradisjonelle vision-language modeller. Fellesnevneren er at de utfordrer antagelsen om at «mer data = bedre modell» som har dominert siden GPT-3.

Om HRM-Text 1B faktisk holder det den lover, vil vi vite når fellesskapet har fått tid til å teste den skikkelig. Inntil da er benchmark-chartene interessante nok til å følge med – men ikke interessante nok til å erstatte din nåværende arbeidsflyt med.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *

Meld deg på nyhetsbrevet

Få oppdateringer om AI nyhetene rett i inboxen!

Du liker kanskje denne også
Jan Sverre med headphones og lydmikser i boardroom-møte med forvirrede executives

Suno AI Copyright 2026 – Opphavsrett og Rettigheter for AI-Musikk

Kan du tjene penger på Suno-musikk? Her er en praktisk gjennomgang av rettigheter, risiko og hva du bør avklare før publisering.
Jan Sverre styrer et digitalt kontrollpanel omgitt av Claude AI-symboler og glødende lysstriper i et mørkt rom

Claude AI – pris, funksjoner og norsk guide (2026)

Alt om Claude AI i 2026 – priser i norske kroner, Claude Pro vs Max, Claude Code, og ærlig sammenligning med ChatGPT. Komplett norsk guide fra en som bruker Claude daglig.
Jan Sverre tester GPT-5.2 ved en transparent OpenAI GPT-skjerm

GPT-5.2: Jeg testet OpenAIs nyeste modell – her er hva som faktisk fungerer

GPT-5.2 er ute med tre versjoner. Jeg har testet thinking-modellen, sammenlignet med 5.1, og funnet ut hva som faktisk er bedre. Her er mine erfaringer.
Jan Sverre profesjonelt fotograf-kvalitet portrett AI-generert bildegenerering

Google NotebookLM

Google NotebookLM er en AI-assistent som gjør dokumenter om til interaktive samtaler, studieguidere og podcasts på norsk. Nå drevet av Gemini 3 Pro med nye funksjoner som infographics, slide decks og Deep Research. Komplett guide til gratis vs. Plus-versjon.