NB-Whisper – AI som faktisk forstår norske dialekter

Innhold Vis

Nasjonalbiblioteket lanserte NB-Whisper i 2024 – en norskutviklet AI-modell som transkriberer tale til tekst og forstår norske dialekter bedre enn noen tilsvarende modell som finnes. Bygget på OpenAI sin Whisper-teknologi og trent på norsk arkivmateriale, er det i dag det beste verktøyet for norsk tale-til-tekst. Det er gratis tilgjengelig. VG har allerede lagt det inn i sin app Jojo.

Problemet? Knapt noen vet at det finnes – eller hvordan de faktisk kommer i gang. Det er litt som om det ble arrangert den beste norsk-språklige AI-workshopen noensinne, men ingen sendte ut invitasjoner.

I dette innlegget går jeg gjennom hva som faktisk støtter norsk i dag, hva som er best på dialekter, og hvordan du konkret begynner å bruke det.

Hva er NB-Whisper?

NB-Whisper er en samling av fem AI-modeller som konverterer norsk tale til tekst. Nasjonalbiblioteket laget dem ved å ta OpenAI sin åpne Whisper-modell og trene den videre på norsk arkivmateriale og data fra Språkbanken.

Modellene heter Tiny, Base, Small, Medium og Large – akkurat som Whisper-familien de er basert på. De mindre modellene kan kjøre på en vanlig datamaskin. De større krever mer ressurser, men gir bedre resultater.

Det som skiller NB-Whisper fra standard Whisper (og alle andre generiske modeller) er at den faktisk er trent på norske data. Det høres kanskje opplagt ut, men det er det ikke. Standard Whisper er trent primært på engelskspråklig innhold, og mens den teknisk sett «støtter» norsk, er kvaliteten merkbart lavere – spesielt på dialekter.

Resultatet fra NB-Whisper? Nesten på høyde med menneskelig transkribering. Og dialekt, kjønn, bakgrunnsstøy og dårlig opptakskvalitet hadde lite å si for resultatet – noe som ville ødelagt de fleste andre modeller.

Infografikk over norske dialektområder med kart som viser østnorsk, vestnorsk, nordnorsk, trøndersk og sørnorsk — Norge har et rikt dialektmangfold – NB-Whisper er trent til å forstå alle disse regionene.

Hvilke dialekter støttes egentlig?

Her er det litt avhengig av hvilket verktøy du ser på.

NB-Whisper er trent på bredt norsk materiale og forstår alle norske dialekter – bergensdialekt, trøndersk, nordnorsk, sørlending, det meste. Output er normalisert bokmål eller nynorsk (du velger). Den forstår trønderdialekten din, men skriver det ut på korrekt skriftspråk.

ElevenLabs støtter norsk tekst-til-tale med fire regionale aksenter: østnorsk (Oslo), vestnorsk (Bergen), nordnorsk (Tromsø) og trøndelag. Det er imponerende spesifikt – men det finnes rapporter om at modellen noen ganger produserer dansk i stedet for norsk hvis man bruker feil innstillinger. Kjent feil.

ChatGPT Advanced Voice Mode forstår norsk, inkludert dialekter. Tilgjengeligheten har vært litt hoppende i Europa – EU-regler om personvern har skapt friksjon – men rapporter fra 2025 tyder på at det nå er tilgjengelig for de fleste brukere.

Google Speech-to-Text og Azure Speech tilbyr begge norsk, men er primært bokmål. Dialektstøtten er svakere enn NB-Whisper.

Hvordan bruker du NB-Whisper?

Her er det tre praktiske innganger, avhengig av hva du trenger.

Alternativ 1: VG Jojo (enklest)

VG sin transkriberingsapp Jojo er gratis å laste ned til Mac og bruker NB-Whisper under panseret. Du åpner appen, snakker, og får tekst ut. Ferdig. Ingen API-nøkler, ingen oppsett, ingen teknisk kunnskap nødvendig. Det er sannsynligvis den raskeste veien inn for de fleste.

Alternativ 2: UiO Autotekst

Universitetet i Oslo integrerte NB-Whisper i sitt Autotekst-system i april 2024. Dette er primært for studenter og ansatte ved UiO, men det viser at NB-Whisper allerede er i produksjonsbruk i seriøse akademiske miljøer.

Alternativ 3: Direkte via Hugging Face (for de tekniske)

NB-Whisper ligger fritt tilgjengelig på Hugging Face. Hvis du kan Python, er det rett frem å installere og bruke – akkurat som vanlig Whisper, men med bedre norsk ytelse. Du installerer transformers-biblioteket, laster ned modellen, og kjører den på lydfiler lokalt på din egen maskin. Ingenting sendes til noen server. Full kontroll.

Person som bruker talegjenkjenningsprogramvare på laptop med lydbølger og norsk tekst på skjermen — NB-Whisper kan brukes direkte via Python, via VG sin Jojo-app eller via UiO sitt Autotekst-system.

Er det greit å bruke for bedrifter?

NB-Whisper er fritt tilgjengelig – for universiteter, offentlig sektor, private bedrifter og medier. Det er akkurat slik det bør være for noe som er laget med offentlige midler.

For bedrifter er kanskje det viktigste poenget at du kan kjøre det lokalt. Lydopptakene forlater aldri datamaskinen din. Du sender ikke ansatte- eller kundesamtaler til en ekstern server i USA. Det er en ganske stor fordel i en tid der mange er usikre på hva som er greit å sende hvor.

Sammenlignet med betalte alternativer: Google Speech-to-Text koster rundt $0,006 per sekund tale. Azure Speech koster omtrent det samme. NB-Whisper koster null. For en bedrift som vil transkribere mange timer med lyd – møter, kundesamtaler, opplæringsvideoer – er det merkbar forskjell.

Hva med tekst-til-tale på norsk?

Tale-til-tekst (transkribering) er der norskstøtten er sterkest. Tekst-til-tale – altså å lage kunstige norske stemmer – er vanskeligere.

Jeg har testet ElevenLabs V3 Alpha grundig, og resultatet er at norske stemmer fra ElevenLabs høres gode ut – men er best på standard østnorsk. Jo mer markant dialekt du vil ha i syntetisert tale, jo vanskeligere blir det.

Et kjent problem er at norsk og dansk ligger nærme hverandre i mange treningsdata, og det er ikke sjelden at norske stemmer får et snev av dansk over seg hvis modellen ikke er riktig konfigurert. ElevenLabs er klar over dette.

For de som vil ha lokalt kjørte norske stemmer, finnes det alternativer på Hugging Face, men det er ikke like enkelt å komme i gang som med NB-Whisper. Pocket-TTS og lignende lokale løsninger er primært bygget for engelsk.

Hvorfor betyr dette noe?

Det handler om digital suverenitet – et begrep som kan høres stort og byråkratisk ut, men som i praksis betyr: hvem kontrollerer den digitale infrastrukturen du er avhengig av?

Norsk er et relativt lite språk med to offisielle skriftformer og et massivt dialektmangfold. Hvis all AI-utvikling overlates til amerikanske giganter, vil norsk alltid bli en andrerangsborger i sine egne verktøy. Dialekter enda mer så.

Nasjonalbiblioteket har gjort noe klokt her: de tok OpenAI sin åpne teknologi, trent den på norsk materiale, og sluppet resultatet fritt. Det er et godt eksempel på offentlig sektor som faktisk tilfører verdi i stedet for å regulere seg frem til det.

Aftenposten sin artikkel om dette er symptomatisk – AI har lært seg norske dialekter, men folk vet ikke om det. Den viktigste barrieren er ikke teknologi, det er kunnskap. Du vet det nå. Prøv Jojo, eller last ned NB-Whisper fra Hugging Face hvis du vil grave dypere.