Chatterbox Multilingual kan klone stemmen din og lese norsk tekst – lokalt, gratis, på din egen maskin. Men kvaliteten avhenger helt av to ting: referanseklippet og parameterne. Bommer du på én av dem, får du en canadier på utveksling. Jeg testet dette på Windows med RTX 4090 i dag, og det er resultater ingen andre i Norge har skrevet om ennå såvidt jeg vet.

Jeg installerte faktisk Chatterbox allerede i februar 2026. Ble ikke imponert, og glemte den. Det viser seg at dommen var rettferdig – men på feil modell. Versjonen fra februar var engelsk-only. Chatterbox Multilingual med norsk støtte kom senere, og v3 ble sluppet 10. juni 2026. Den fortjente en ny sjanse. Så her er den ærlige testrapporten.

Hva er Chatterbox, og hvorfor er det interessant for norske brukere?

Chatterbox er en åpen TTS-motor laget av Resemble AI, lisensiert under MIT – fri til kommersiell og ikke-kommersiell bruk. Selve modellen er en 0,5 milliarder parameter Llama-basert arkitektur. Du kjører den lokalt, ingen sky, ingen credits, ingen månedspris.

Voicebox er desktop-appen som pakker Chatterbox (og andre motorer) inn i et GUI med diktering, multitrack-editor og en innebygd MCP-server. Kort fortalt: «Ollama, men for stemme.» Du kan altså koble det som et stemmelag til Claude Code eller Cursor, slik at agenten din kan snakke tilbake. Jeg testet ikke MCP-laget denne gangen – det er neste runde – men muligheten er der.

Det som gjør dette relevant for oss i Norge er ett ord: language_id="no". Chatterbox Multilingual støtter 23 språk, inkludert norsk, med zero-shot voice cloning. Du gir den et referanseklipp på 30 sekunder, og den hermer etter stemmen din. Ingen treningsrunder, ingen ventetid, ingen opp- og nedlastinger mellom deg og modellen. Alt kjører på 4090-en.

Vi fikk NB-Whisper fra Nasjonalbiblioteket som er glimrende til å transkribere norsk tale. Men det er den andre veien – tekst til tale, lokalt, med din egen stemme – som har vært den manglende brikken. Her er en åpen modell som faktisk prøver.

Slik installerte jeg det

Siden jeg hadde en gammel installasjon fra februar, måtte jeg oppgradere før norsk i det hele tatt var tilgjengelig:

pip install -U chatterbox-tts

Deretter er det minimale testscriptet enkelt. Du laster modellen, peker på referanseklippet ditt, og ber den generere:

import torchaudio as ta
from chatterbox.mtl_tts import ChatterboxMultilingualTTS

model = ChatterboxMultilingualTTS.from_pretrained(device="cuda", t3_model="v3")

wav = model.generate(
    "Hei, dette er stemmen min klonet lokalt.",
    audio_prompt_path="referanse.wav",
    language_id="no"
)
ta.save("output.wav", wav, model.sr)

Første kjøring laster ned modellen – deretter er den lokal for alltid. Ytelsen på 4090 er rundt 0,5-0,7 RTF etter oppvarming (real-time factor under 1 betyr raskere enn sanntid). Praktisk: 5-6 sekunder lyd genereres på 2,7-8,5 sekunder.

Det første funnet: default-stemmen er en engelskmann

Her er det mange som snubler. Chatterbox Multilingual har en default-stemme – og den er én enkelt engelsk mannsstemme. Ber du den lese norsk tekst uten referanseklipp, får du en fremmedspråklig aksent på norske ord. Samtlige av mine fem persona-tester (glad kundekonsulent, eldre og bestemt, sensuell og flørtende, tøff og sassy, lærer-stil) landet på den samme engelskmannen – selv når jeg bestilte kvinnestemmer. Tuning via exaggeration og cfg_weight endrer humøret, men ikke hvem som snakker eller hvor de kommer fra.

Det er et viktig prinsipp å forstå før du bruker mye tid på parameterjustering: Chatterbox kan ikke «designe» en stemme fra en tekstbeskrivelse. Det finnes ingen «glad ung kundekonsulent»-knapp. Du har to valg – (1) default-stemmen, eller (2) kloning fra et lydklipp du selv leverer. Vil du ha norsk, norsk dialekt, og norsk kjønn – må du gi den et norsk referanseklipp med den stemmen du vil ha.

Visualisering av Chatterbox TTS-parametere exaggeration, cfg_weight og temperature som kontrollknapper med lydbølger
Tre parametere styrer leveringen – ikke identiteten. Den sitter i referanseklippet.

Gjennombruddet: ren referanse + nøytrale parametere

Da jeg byttet ut default-stemmen med et NST-opptak av en norsk mann (Ytre Oslofjord, 23 år, opplest tale i studiokvalitet) og satte nøytrale parametere – exaggeration=0.5, cfg_weight=0.5, temperature=0.7 – var dommen annerledes: veldig levende, høres ut som ekte tale. Ikke TTS. Det overrasket meg genuint.

Hvorfor akkurat denne kombinasjonen fungerte:

  • Referanseklippet var rent: studiokvalitet, hel rolig setning, ingen støy. Modellen hermer etter prosodien – pust, rytme, mikro-nøling – ikke bare klangfargen.
  • Parameterne var nøytrale: Skrur du opp exaggeration for å få «mer innlevelse», mister du den naturlige flyten. De teatralske personaene mine (sassy, sensuell) hørtes mer AI-aktig ut enn de nøytrale – nettopp fordi de var skrudd opp.
  • Bokmål, ikke dialekt: Trolig har modellen mest treningsdata på østlandsk bokmål. Der sitter uttalen bedre.

Jeg testet også tre unge bokmål-kvinnestemmer fra NST-datasettet (20, 22 og 23 år, alle Ytre Oslofjord) med samme nøytrale oppsett. Alle tre passerte. Den best fungerende – en 23-åring med ren bokmål-flyt – er nå en fast referansestemme. Oppskriften generaliserer altså på tvers av kjønn.

Her er stemmen jeg landet på – lokal, klonet, norsk. Hør selv.

Dialekt-grensen: der modellen sliter

Her er det ærlige resultatet med min egen stemme og min egen Rogaland/Haugesund-dialekt: det ble søl. Modellen prøvde å dra meg mot østlandsk bokmål uten å klare det skikkelig – resultatet var verken min ekte dialekt eller en troverdig «meg på bokmål». Identiteten kollapset.

Hypotesen er enkel: treningsdataene er tungt vektet mot østlandsk bokmål. Sterke dialekter – Voss, Trøndelag, Troms, Ytre Oslofjord – kan klones fra egnede referanseklipp med varierende hell, men min vrien Rogaland-dialekt er blant de vanskeligste for enhver norsk TTS-modell. Det er en reell begrensning, og det er verdt å si rett ut.

En mulig omvei jeg ikke rakk å teste: lese inn et rent bokmål-referanseklipp av meg selv (i stedet for dialekt) og se om det gir et bedre resultat. Naturlig oppfølging – men ikke nå, for stemmen er ute av drift midlertidig.

Abstrakt kart over Norge med glødende dialektregioner og lydmønstre - østlandsk bokmål fungerer best med Chatterbox
Chatterbox er sterkest på østlandsk bokmål. Sterke dialekter som Rogaland og Voss kollapser mot modellens komfortsone.

Praktisk guide: parameterne og hva de gjør

De fire knottene du trenger å kjenne til:

  • exaggeration – emosjonell intensitet. 0,4 = behersket og nøytral; 0,85 = teatralsk. Start nøytralt (0,45-0,55), skru opp bare hvis du vil ha eksplisitt emosjonsuttrykk. Oppskrudd exaggeration er den raskeste veien til «AI-lyd».
  • cfg_weight – tempo og tetthet mot referansen. Lavt (0,3) = treg, intim, drar på ordene. Høyt = kjapp og klippet. Nøytralt (0,5) er et godt startpunkt.
  • temperature – variasjon mellom kjøringene. Lavt (0,6) = jevn og forutsigbar, bra for long-form og skjøting. Høyt (0,8-0,9) = mer levende og uforutsigbar.
  • repetition_penalty – default er 2,0, som er høyt. Får du metallisk eller grøtete lyd (warble), sett den ned. Bidrar også til at modellen tvinger tidlig stopp («forcing EOS») i korte setninger.

Merk at cfg_weight altså ikke endrer hvilken stemme du hører – det endrer leveringen. Identiteten sitter i referanseklippet. Parameterne er sminkecreme, ikke ansiktstransplantasjon.

Long-form: ikke lim inn en hel tekst og trykk play

Chatterbox er i bunn og grunn en korttekst-motor. Lengre tekst skjøtes internt i korte chunks, og naiv sammensetning gir hørbare artefakter: klikk i overgangene, og av og til brå stopp midt i en setning der modellen tvangsavslutter (den berømte «Detected 2x repetition / forcing EOS»-meldingen).

Det er gjørbart å komme rundt det, men det krever en liten jobb. Fiksen som fungerte i mine tester:

  1. Trim stillhet i starten og slutten av hver chunk.
  2. Legg myke fades/crossfade på skjøtene (dreper klikkene).
  3. Senk temperature til ~0,6 for stabilitet i lange kjøringer.
  4. Vurder å senke repetition_penalty fra default 2,0 hvis du får warble.

Med det oppsettet fikk jeg en 29,5 sekunder sammenhengende norsk tale uten hørbare artefakter. Resultatet var bra. Men det er et manuelt ettersteg, ikke en «lim inn og trykk play»-opplevelse. Det er en reell begrensning å ha i bakhodet hvis du planlegger å bruke dette som stemmelag i en uovervåket agent – EOS-quirken og behovet for skjøting gjør det litt mer pirkete enn ideelt.

Hvor får du lovlige norske referanser?

Dette er spørsmålet du ikke finner svaret på i de engelskspråklige guidene. For å klone en spesifikk norsk stemme trenger du et referanseklipp – og det bør være rent, naturlig og høyt nok kvalitet til at modellen kan hente ut prosodien.

To åpne norske datasett på Hugging Face er nyttige:

  • NbAiLab/NPSC – opptak fra Stortinget, lisensiert som CC-ZERO (fritt til alt, inkludert kommersiell bruk). Metadata med fødested gir deg dialektinformasjon. Ulempen: kjønn er ikke felt per rad – det krever kobling via speaker_id til en separat metadatatabell.
  • NbAiLab/NST – opplest tale med sex-felt direkte per rad (enkel kjønnsfiltrering). Renere lyd enn stortingssal, noe som gjør den bedre for kloning. Gotcha: bruker et eldre lasteskript; løsning er pip install "datasets==2.21.0".

Generell lærdom: ren, opplest tale er bedre enn feltopptak med romklang og støy. En stille setning i et rom med lav bakgrunnsstøy slår en perfekt dialekt tatt opp på en folkefest.

En merknad om æøå – og om vannmerking

En tidlig feil i mine tester var å ASCII-fisere testtekstene for å unngå tegnsettproblemer (skrive «sa» i stedet for «så», «vaere» i stedet for «være»). Modellen prøver da bokstavelig talt å si feil ord – og uttalen ble tilsvarende rotete. Da jeg regenererte med ekte æøå, ble uttalen merkbart bedre. Konklusjonen: mat den riktige tegn, alltid. Modellen håndterer æøå fint.

En ting som er verdt å nevne for deg som er opptatt av å eie stemmen din lokalt: Chatterbox v3 legger et innebygd PerTh-vannmerke i all lyd-output, på alle språk. Modellen kjører lokalt, lyden forlater ikke maskinen din – men outputen er likevel merket som AI-generert og sporbar. Det er en bevisst designbeslutning fra Resemble AI, og det er greit å vite om.

Hva med MCP-laget og Voicebox-appen?

Voicebox som desktop-app har to ting jeg ikke fikk testet i denne omgangen: diktering med global hurtigtast (Whisper som transkriberer direkte inn i editoren din) og MCP-serveren som lar Claude Code eller Cursor snakke tilbake med stemme. Begge deler er teknisk interessante – særlig MCP-laget, som i prinsippet betyr at koding-agenten din kan si «build failed, tre tester røk» høyt mens du er på kjøkkenet. Det er uutforsket territorium jeg har lyst til å teste, men EOS-quirken gjør meg litt skeptisk til stabiliteten i en uovervåket setting. Det er neste runde.

Chatterbox er en Python-pakke du kan kjøre helt uten Voicebox-GUI-en, slik jeg gjorde her. Vil du ha headless på CLI, trenger du ikke appen i det hele tatt. Vil du ha diktering og et grensesnitt, er Voicebox veien å gå.

Skytjenestene for stemme-API har lavere terskel – du slipper referanseklipp og parameterfikling, men du betaler per bruk og lyden forlater maskinen din. Chatterbox er lokal, gratis og MIT-lisensiert. Vil du ha andre lokale alternativer i samme gate, har jeg testet VoxCPM2 og OmniVoice og Pocket-TTS tidligere. Kompromisset er det samme overalt: du jobber litt mer for å få det til å låte ekte.

Helhetsdom: overraskende ekte under de rette forholdene

Resemble AI hevder i en blindtest at lyttere foretrakk Chatterbox over ElevenLabs i majoriteten av tilfellene. Jeg er skeptisk til den typen tall. Det som teller for meg er hva jeg hørte i mine egne ører, på norsk, på min egen maskin. Og det er nyansert:

Default-stemmen uten norsk referanse gir aksent-norsk fra en engelskmann – ubrukelig hvis du trenger ekte norsk. Med et godt norsk referanseklipp og nøytrale parametere får du derimot noe som faktisk låter som ekte tale. Det imponerte meg genuint, og det er noe jeg ikke forventet da jeg åpnet terminalen i dag.

Dialekt-kloning av sterke norske dialekter er ikke der ennå. Long-form krever ettersteg. EOS-quirken er reell. Men for østlandsk bokmål, med riktige referansekilder og nøytrale parametere, er Chatterbox Multilingual v3 et brukbart verktøy – lokalt, gratis, og faktisk norsk.

Det er den ærlige oppskriften. Ikke en ElevenLabs-dreper, men heller ikke det canada-aksentuerte rottet jeg fryktet etter februar. Et godt utgangspunkt – og noe å bygge videre på.

Du finner Chatterbox på GitHub og Voicebox-appen her. Og DramaBox er et annet alternativ hvis du vil ha mer ekspressiv TTS du kan kjøre selv – litt annet bruksområde, men verdt å kjenne til. Vil du ha norsk tale-til-tekst (den andre veien), er NB-Whisper fra Nasjonalbiblioteket fortsatt standarden.

Ofte stilte spørsmål

Støtter Chatterbox Multilingual norsk stemmekloning gratis?

Ja. Chatterbox Multilingual v3 støtter norsk (language_id="no") og er MIT-lisensiert – gratis til kommersiell og ikke-kommersiell bruk. Du trenger et norsk referanseklipp for å få ekte norsk kvalitet; default-stemmen er en engelskmann og gir aksent-norsk.

Hva slags maskinvare trenger jeg for å kjøre Chatterbox lokalt?

En moderne GPU anbefales. Testen her er gjort på RTX 4090 med CUDA og gir en real-time factor rundt 0,5-0,7 – raskere enn sanntid. Modellen kjører også på CPU og Apple M-chips (MPS), men saktere. Sjekk at torch er installert med CUDA-støtte på Windows, ikke CPU-only-bygget.

Hvor finner jeg lovlige norske referansestemmer å klone?

NbAiLab/NST på Hugging Face er et godt startpunkt: opplest tale med kjønnsmetadata direkte per rad. For CC-ZERO-lisensiert innhold (fritt til alt) gir NbAiLab/NPSC Stortingsopptak med dialektinformasjon. Bruk pip install "datasets==2.21.0" for NST-kompatibilitet.

Klarer Chatterbox sterke norske dialekter som trøndersk eller vestlandsk?

Modellen er sterkest på østlandsk bokmål, som antagelig dominerer treningsdataene. Østlandske referansestemmer fra NST gir relativt troverdig resultat. Sterke dialekter – særlig vestlandsk og visse bygdedialekter – har en tendens til å trekkes mot bokmål i stedet, noe som gir et resultat som er verken-eller. Trøndersk og Troms-dialekter kan gi varierende hell avhengig av referanseklippet.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *

Meld deg på nyhetsbrevet

Få oppdateringer om AI nyhetene rett i inboxen!

Du liker kanskje denne også
Jan Sverre arbeider med Suno AI musikk-generering på datamaskinen, kreativt workspace med hodetelefoner

Suno AI – 150 Låter Testet: Hva Funker og Hva Er Bortkastet Tid

Jeg testet 150 Suno-låter og fant tydelige mønstre. Her er hva som faktisk gir kvalitet, og hva som bare kaster bort tid.
Jan Sverre med headphones og lydmikser i boardroom-møte med forvirrede executives

Suno AI Copyright 2026 – Opphavsrett og Rettigheter for AI-Musikk

Kan du tjene penger på Suno-musikk? Her er en praktisk gjennomgang av rettigheter, risiko og hva du bør avklare før publisering.
Jan Sverre styrer et digitalt kontrollpanel omgitt av Claude AI-symboler og glødende lysstriper i et mørkt rom

Claude AI – pris, funksjoner og norsk guide (2026)

Alt om Claude AI i 2026 – priser i norske kroner, Claude Pro vs Max, Claude Code, og ærlig sammenligning med ChatGPT. Komplett norsk guide fra en som bruker Claude daglig.
Jan Sverre sitter ved sitt kraftige AI-workstation oppsett med ultrawide skjerm og flere PC-er som kjører Ollama og lokale LLM-modeller

Ollama Guide – Kjør AI Gratis og Lokalt på Din Egen PC (2026)

Komplett guide til Ollama og lokale LLM-er på RTX 4090. Lær quantisering, Hugging Face import, beste modeller (Gemma 3, Qwen 3), GDPR-fordeler og full kostnadskontroll.