Innhold Vis
Hugging Face har nettopp lansert Carbon – en familie med open source AI-modeller trent på 1 billion tokens med DNA-sekvenser. Flaggskipet Carbon-3B matcher ytelsen til Evo2-7B – den gjeldende state-of-the-art innen DNA-modellering – på samtlige benchmarks. Og det med 275 ganger raskere inferens.
Prosjektet er ledet av Loubna Ben Allal fra Hugging Face, som er kjent fra SmolLM-arbeidet. Tanken var å ta de samme prinsippene som har gjort moderne språkmodeller så effektive, og overføre dem til genomikk. Men DNA er ikke tekst. Genomet er støyende, redundant og formet av millioner av år med evolusjon – ikke av menneskelig kommunikasjon.
Det gjør Carbon til et interessant eksperiment. Og resultatene er såpass overraskende at de er verdt å se nærmere på.
Hva er Carbon?
Carbon er en familie med kausal språkmodell-arkitektur trent på DNA-sekvenser fra en stor og variert genomdatabase. Modellene er utviklet i samarbeid mellom Hugging Face, Zhongguancun Academy og TIGEM/Universitetet i Napoli, og er lisensiert under Apache 2.0 – det vil si fullt åpen kildekode du kan bruke og bygge videre på.
Modellen finnes i tre varianter: Carbon-500M (draft-modell for spekulativ dekoding), Carbon-3B (flaggskipet) og Carbon-8B (for ekstra tunge oppgaver). Kjernen i det tekniske arbeidet er en hybrid tokenizer – en som veksler mellom standard BPE-tokenisering for vanlig tekst og såkalt 6-mer-tokenisering for DNA-sekvenser. Et -tag i prompten forteller modellen hvilken modus den skal kjøre i.

Hva er Evo2 – og hvorfor er sammenligningen viktig?
Evo2-7B fra Arc Institute er per i dag state-of-the-art innen genomiske foundation models. Det er en 7 milliarder parameter stor modell trent på et enormt datamengde av DNA- og RNA-sekvenser fra tusenvis av organismer. Evo2 er referansepunktet alle andre DNA-modeller måles mot.
Carbon-3B har halvparten så mange parametere – 3 milliarder mot 7 milliarder – og er likevel på nivå med Evo2 på samtlige av de syv benchmark-oppgavene teamet testet. Det inkluderer oppgaver som sekvensgjennomgang, varianteffekt-prediksjon og langt-kontekst genomsøk opp til 786 000 basepar. Og inferenshastigheten er altså 275 ganger høyere.
Det er ikke en liten forbedring. Det er en størrelsesorden som potensielt gjør DNA-analyse tilgjengelig på hardware som ikke koster en formue å kjøre.
Hva ble Carbon trent på?
Treningsdatasettet heter Carbon Pretraining Corpus og består av omtrent 1 billion DNA-tokens, tilsvarende rundt 6 billioner basepar. Det er hentet fra fire hovedkilder:
- Eukaryote gener fra RefSeq (dyr, planter, sopp, protister)
- mRNA-transkripter fra OpenGenome2
- Prokaryote genomer fra GTDB og IMG/PR (rundt 10 prosent av blandingen)
Sammensetningen er bevisst eukaryt-tung fordi det er der de fleste praktiske brukscasene befinner seg – spesielt medisinsk forskning på mennesker, dyr og planter. Teamet erkjenner selv at genomet ikke er tekst: det er støyende, redundant og preget av evolusjonens tilfeldigheter mer enn av noe som ligner menneskelig mening. Det krevde tilpasninger både i arkitektur og treningsprosess.
Hvilke oppgaver klarer Carbon?
Benchmarkene teamet brukte dekker sju ulike genomiske oppgaver i zero-shot modus – det vil si uten finjustering:
- Sekvensgjennomgang: Generere de neste 30 basepar riktig
- CAG repeat-innsetting: Detektere polyglutamin-ekspansjoner knyttet til sykdommer som Huntington
- Synonymt kodon-substitusjon: Forstå kodonbruk og redundans i den genetiske koden
- BRCA2 varianteffekt-prediksjon: Vurdere om mutasjoner i BRCA2-genet er skadelige (relevant for brystkreftrisiko)
- TraitGym Mendelisk: Klassifisere ikke-kodende regulatoriske varianter
- ClinVar: Skille patogene fra godartede varianter
- Genome-NIAH: Langt-kontekst-retrieval opp til 786 000 basepar
At en 3 milliarder parameter modell klarer dette på nivå med Evo2-7B i zero-shot er ikke hverdagskost. Det betyr at treningsmetodikken og tokenizer-designet gjør mye av jobben.

Hva betyr 275x raskere i praksis?
Hastighetsfordelen handler ikke bare om å spare tid. Det handler om hva slags hardware som er nødvendig, hva det koster å kjøre analyser i skala, og hvem som faktisk har tilgang til verktøyet.
En modell som er 275 ganger raskere enn konkurrenten ved samme ytelsesnivå betyr at du kan kjøre den samme analysen på en brøkdel av GPU-kapasiteten – eller behandle 275 ganger mer data med samme ressursbruk. For et universitetslab eller et lite bioteknologiselskap er det forskjellen mellom å kunne bruke verktøyet og å ikke kunne det.
Spekulativ dekoding med Carbon-500M som draft-modell er en del av forklaringen. Mønsteret er kjent fra språkmodeller: en liten rask modell gjetter neste token, en større bekrefter eller korrigerer. Overfør det til DNA-analyse og du får dramatisk økt gjennomstrømming.
Kombinert med Apache 2.0-lisensen og den åpne kildekoden er Carbon et argument for at åpen forskning faktisk kan konkurrere med de store proprietære laboratoriesystemene. Det er den typen resultat jeg liker å se.
Hva er sammenhengen med SmolLM?
Loubna Ben Allal og teamet bak Carbon er de samme som laget SmolLM – Hugging Faces serie med effektive og kompakte språkmodeller for on-device bruk. SmolLM3, flaggskipet i den serien, er en 3 milliarder parameter modell trent på 11 billioner tokens som slår Llama 3.2 3B og Qwen2.5 3B på standard benchmarks.
Carbon er på mange måter SmolLM-metodikken brukt på et nytt domene. Fokuset på effektivitet, åpen tilgang, og å gjøre kompakte modeller konkurransedyktige med mye større systemer – det er den samme filosofien. Hugging Face har åpenbart funnet noe som fungerer.
Metodologien er interessant i seg selv: ta teknikker som fungerer godt for naturlig språkbehandling, forstå hva som er grunnleggende forskjellig med genomdata, og tilpass deretter. Det er et mer ærlig ingeniørarbeid enn å bare skalere opp og håpe.
Hvilken rolle spiller dette i det større bildet av AI og biologi?
Biologi er blitt et av de heteste feltene innen AI-forskning de siste to-tre årene. Anthropic kjøpte Coefficient Bio for 400 millioner dollar for å drive AI-basert legemiddeloppdagelse. OpenAI lanserte GPT-Rosalind, sin egen biologimodell. AlphaFold har allerede revolusjonert proteinforskning.
DNA-foundation models er neste ledd i den kjeden. Hvis du kan lære en modell å forstå genomets «språk» godt nok, åpner det for ting som raskere variantanalyse, bedre forståelse av regulatoriske mekanismer, og på sikt mer presis medisin.
Det Carbon gjør er å åpne dette feltet. I stedet for at bare de store aktørene med enorme datasentre kan kjøre DNA-analyse i skala, kan nå en forsker med tilgang til vanlig akademisk hardware bruke Carbon-3B. Det er ikke en liten ting.
Om Carbon vil holde seg i front vet jeg ikke – feltet beveger seg fort, og Evo2 er heller ikke stille. Men det å sette en ny standard for hva et åpent, effektivt alternativ kan gjøre er verdifullt uavhengig av hvem som vinner neste benchmark-runde. Du finner Carbon og all kode på Hugging Faces GitHub. Og hvis du er nysgjerrig på open source AI mer generelt, har jeg skrevet en komplett guide til open source AI i 2026 som gir et godt bakteppe.