Cohere Transcribe er en ny open-source tale-til-tekst-modell lansert 26. mars 2026. Med bare 2 milliarder parametere er den skreddersydd for deg som vil kjøre lokal transkripsjon på vanlig forbrukerhardware – uten å betale per minutt til en skybasert tjeneste. Modellen støtter 14 språk og er allerede rangert som nummer én for nøyaktighet på Hugging Faces Open ASR Leaderboard.

Automatisk transkripsjon har lenge vært dominert av OpenAI Whisper – en solid modell som mange fortsatt bruker i alt fra podkastproduksjon til møtereferater. Men Whisper er ikke alltid den raskeste løsningen, og nøyaktigheten varierer med dialekt og støyforhold. Cohere Transcribe er et direkte forsøk på å slå Whisper på begge fronter, med en modell som er liten nok til å kjøre på din egen maskin.

Apache 2.0-lisens betyr full kommersiell bruk, ingen strenger. Modellen er tilgjengelig på Hugging Face under navnet cohere-transcribe-03-2026.

Hva er Cohere Transcribe?

Cohere Transcribe er en ASR-modell (Automatic Speech Recognition) bygget fra bunnen av – ikke finjustert på toppen av noe annet. Arkitekturen kombinerer en stor Conformer-encoder som trekker ut akustiske representasjoner fra lyd, koblet med en lettere Transformer-dekoder som produserer tekst-tokens. Inndata er log-Mel spektrogram, noe som er standard for lydmodeller av denne typen.

2 milliarder parametere er ganske lite for en modell som gjør krav på å toppe leaderboards. Til sammenligning har Whisper Large v3 – som Cohere benchmarker mot – 1,5 milliarder parametere. Cohere har altså laget en modell litt større enn Whisper Large, men med markant bedre ytelse ifølge egne tall.

Gjennomstrømmingen er imponerende: 525 minutter lyd prosessert per minutt. Det betyr at en times meeting-opptak er transkribert på under to minutter. For den størrelsesklassen modellen er i, hevder Cohere dette er best-in-class.

Søylediagram som sammenligner Word Error Rate for Cohere Transcribe, ElevenLabs Scribe og Whisper Large v3
Cohere Transcribe oppnår 5,42% WER – bedre enn ElevenLabs Scribe v2 (5,83%) og Whisper Large v3 (7,44%) ifølge Open ASR Leaderboard.

Hvem slår Cohere Transcribe?

Open ASR Leaderboard oppnår modellen en gjennomsnittlig Word Error Rate (WER) på 5,42%. Lavere er bedre – jo lavere WER, jo færre ord er transkriberte feil.

  • Cohere Transcribe: 5,42% WER (rangert #1)
  • ElevenLabs Scribe v2: 5,83% WER
  • OpenAI Whisper Large v3: 7,44% WER
  • IBM Granite 4.0 1B: dårligere
  • Zoom Scribe v1: dårligere

I parvise menneskelige evalueringer (der folk valgte mellom to transkripsjoner uten å vite hvilken modell som lagde dem) vant Cohere Transcribe 61% av sammenligningene. Innen enkeltspråk: italiensk 60% vinnrate, japansk hele 70%. Modellen sliter imidlertid med portugisisk, tysk og spansk sammenlignet med rivalene – noe Cohere åpent innrømmer.

Det er verdt å merke seg at dette er Coheres egne benchmarks. Ikke akkurat upartisk kilde. Men WER på Open ASR Leaderboard er et uavhengig mål, og det er vanskelig å triksle seg til en #1-plassering der uten at det faktisk fungerer.

Hvilke språk støttes?

14 språk per lansering:

  • Europeisk: Engelsk, fransk, tysk, italiensk, spansk, portugisisk, gresk, nederlandsk, polsk
  • Asiatisk: Kinesisk, japansk, koreansk, vietnamesisk
  • MENA: Arabisk

Norsk er ikke på listen. Det er litt irriterende for oss, men heller ikke overraskende – norsk er et lite språk og en nisje selv blant transkripsjonssystemer. Vil du ha god norsk transkripsjon med dialektstøtte, er NB-Whisper fortsatt det beste alternativet – spesialbygget av Nasjonalbiblioteket med norsk lyddata.

Illustrasjon av tre måter å bruke Cohere Transcribe: lokal kjøring via Hugging Face, gratis API og enterprise Model Vault
Tre veier til Cohere Transcribe: last ned fra Hugging Face for lokal kjøring, bruk det gratis via API, eller velg Model Vault for enterprise-produksjon.

Hvordan bruker du Cohere Transcribe?

Tre veier til modellen:

1. Hugging Face (lokal kjøring): Last ned modellen CohereLabs/cohere-transcribe-03-2026 og kjør den selv. Krever en forbrukerkvalitets-GPU – Cohere sier ikke eksakt hvor mye VRAM, men 2B parameter-modeller pleier å gå greit på 8-10 GB VRAM med kvantisering.

2. Cohere API (gratis eksperimentering): Cohere tilbyr modellen via sitt API uten kostnad, med hastighetsbegrensning. For testing og eksperimentering er dette den enkleste veien inn.

3. Model Vault (produksjon): Coheres enterprise-tilbud gir lavlatens privat sky-inferens uten at du trenger å drifte infrastrukturen selv. Prismodell basert på tidsinstanser.

For de fleste vil API-ruten eller lokal Hugging Face-modell være mest relevant. Og med Apache 2.0-lisens kan du integrere dette i hva som helst – kommersielle produkter inkludert.

Er dette bedre enn Whisper for hjemmebruk?

Whisper har vært standarden for lokal transkripsjon siden OpenAI slapp den i 2022. Den er god, godt testet, og det finnes en hel industri av verktøy bygget rundt den. Men Cohere Transcribe ser ut til å gjøre jobben raskere og mer nøyaktig – i alle fall på de 14 støttede språkene.

525 minutter audio per minutt er egentlig ganske vilt. Det tilsvarer at du kan transkribere en hel arbeidsdag med lydopptak på under to minutter. For podkastprodusenter, journalister, eller folk som lager møtereferater er det en markant forbedring i arbeidsflyten.

Det som gjenstår å se er hvordan den presterer i praksis med støy, uklart snakk og overlappende stemmer – de virkelig vanskelige situasjonene der enhver transkripsjonmodell sliter. Benchmarks måler gjerne ideelle forhold.

Cohere planlegger å integrere Transcribe i sin enterprise-plattform North, som er en AI-agentorkestreringsplattform. Det antyder at de ser transkripsjon som en byggeblokk i større automatiserte arbeidsprosesser, ikke bare et stand-alone verktøy.

Hva tenker du – er 14 språk nok til å gjøre dette relevant for deg? Og er du glad for at NB-Whisper finnes for dem av oss som trenger norsk? Skriv gjerne i kommentarfeltet.

Les: Open source AI – komplett guide (2026).

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *

Meld deg på nyhetsbrevet

Få oppdateringer om AI nyhetene rett i inboxen!

Du liker kanskje denne også
Jan Sverre arbeider med Suno AI musikk-generering på datamaskinen, kreativt workspace med hodetelefoner

Suno AI – 150 Låter Testet: Hva Funker og Hva Er Bortkastet Tid

Jeg testet 150 Suno-låter og fant tydelige mønstre. Her er hva som faktisk gir kvalitet, og hva som bare kaster bort tid.
Jan Sverre med headphones og lydmikser i boardroom-møte med forvirrede executives

Suno AI Copyright 2026 – Opphavsrett og Rettigheter for AI-Musikk

Kan du tjene penger på Suno-musikk? Her er en praktisk gjennomgang av rettigheter, risiko og hva du bør avklare før publisering.
Jan Sverre riding a dinosaur in safari outfit, photorealistic AI-generated image demonstrating Nano Banana Pro capabilities

Jeg testet Nano Banana Pro: AI som faktisk skriver norsk i bilder

Endelig! En AI som kan generere norsk tekst i bilder med 94% nøyaktighet. Jeg testet Nano Banana Pro grundig – her er resultatene.
Jan Sverre tester GPT-5.2 ved en transparent OpenAI GPT-skjerm

GPT-5.2: Jeg testet OpenAIs nyeste modell – her er hva som faktisk fungerer

GPT-5.2 er ute med tre versjoner. Jeg har testet thinking-modellen, sammenlignet med 5.1, og funnet ut hva som faktisk er bedre. Her er mine erfaringer.