Innhold Vis
Tekst til tale-teknologien har beveget seg raskere i 2026 enn nesten noe annet i AI-verdenen. Og valget mellom modellene er ikke lenger åpenbart – det avhenger nesten helt av hva du faktisk skal bruke det til.
Jeg har brukt TTS aktivt den siste tiden og testet både Gemini 3.1 Flash TTS, OpenAI gpt-4o-mini-tts og noen åpne alternativer. Gemini med stemmen Charon er det klart beste jeg har hørt på norsk – naturtreu uttale, god prosodi, ingen av den robotaktige rytmen som plaget eldre modeller. Men det betyr ikke at Gemini er riktig for alle brukstilfeller.
Her er en gjennomgang av de ledende modellene basert på benchmarkdata fra Artificial Analysis Speech Arena (blindvalg blant brukere, oppdatert til mai 2026) – kombinert med det jeg faktisk har erfart i praksis.
Hva er de beste TTS-modellene akkurat nå?
Basert på ELO-rangering fra Artificial Analysis Speech Arena – der brukere velger mellom anonymiserte stemmeklipp uten å vite hvilken modell som er hvilken – ser toppen slik ut per mai 2026:
ELO-rangering (høyere = bedre opplevd kvalitet):
- Gemini 3.1 Flash TTS: 1216
- OpenAI Realtime TTS-2: 1208
- Cartesia Sonic 3.5: 1204
- OpenAI Realtime TTS 1.5 Max: 1200
- Fun-Realtime-TTS-Preview: 1190
ELO-tallene er ferske øyeblikksbilder – de skifter ukentlig etter som nye modeller slippes og brukere avgir stemmer. Men mønsteret holder seg: Gemini og OpenAI ligger i toppen, og avstanden til nummer 3 (Cartesia Sonic 3.5) er liten.

Hva betyr de ulike kvalitetsmålene?
Benchmarks i TTS er mer kompliserte enn i tekstmodeller fordi «bedre» er delvis subjektivt. Her er de viktigste målene og hva de faktisk sier:
ELO-rating er basert på blindvalg – den eneste metoden som faktisk tester hva brukere foretrekker. To stemmeklipp spilles av, du velger hvilken som høres best ut. Akkumulert over tusenvis av stemmer gir dette et robust rangering. Det er dette jeg stoler mest på.
CER (Character Error Rate) måler om modellen uttaler ordene riktig via en roundtrip-test: modellen leser teksten, en ASR-modell transkriberer tilbake, og du ser hvor mange tegn som ble feil. Lavere er bedre. Viktig for teknisk innhold, egennavn og fremmedord.
TTFA (Time-to-First-Audio) er latenstiden til første lydbyte sendes ut. Kritisk for sanntidsapplikasjoner som stemmeagenter og chatbots. Cartesia Sonic 3.5 er lederen her med rundt 82 ms ende-til-ende – Deepgram Aura-2 ligger på under 90 ms, Inworld Mini på under 130 ms.
MOS (Mean Opinion Score) er tradisjonelt brukt i talekvalitetsforskning – brukere gir en score fra 1-5. Begrenset av at det er kontekstuelt og kulturelt avhengig. UTMOS er en automatisert kvalitetsestimator, men den er bare reliabel på klipp under 10 sekunder – vær skeptisk til UTMOS-tall for lengre innhold.
Hvilken modell passer til hva?
Ingen enkelt modell vinner på alle parametere. Valget avhenger av hva du faktisk skal bruke TTS til:
Lydbok og podkast-produksjon (prioriter kvalitet): Gemini 3.1 Flash TTS og ElevenLabs v3 er de to sterkeste kandidatene. Gemini er merkbart best på norsk i min erfaring – ElevenLabs har bredere språkstøtte og mer stemmevariasjon via sine lydeffekt- og flerstemme-funksjoner. For ren norsk opplesning er Gemini Charon mitt førstevalg.
Stemmeagenter og chatbots (prioriter latens): Cartesia Sonic 3.5 med 82 ms TTFA er best her. Inworld Mini og Deepgram Aura-2 er begge sterke alternativer. Gemini egner seg mindre for lavlatens-streaming.
Skala-applikasjoner (prioriter kostnad): Kokoro 82M (Apache 2.0-lisens) kan selvhostes til under 1 dollar per million tegn. Det er vesentlig billigere enn alle kommersielle alternativer. Fish Audio S2 Pro er et annet alternativ for lokalkjøring, men krever betalt lisens for kommersiell bruk.
Generell produksjon på engelsk: OpenAI gpt-4o-mini-tts er solid og godt integrert i eksisterende OpenAI-arbeidsflyter. Priser ligger rundt 0,015 dollar per minutt audio. Gemini 3.1 Flash har allerede vist seg sterk på tale-funksjonalitet og er et naturlig valg hvis du allerede er i Google-økosystemet.
Hva koster de ledende TTS-modellene?
Prisene varierer enormt – fra gratis selvhosting til kommersiell API-prising som kan gi seg merkbart utslag i skala:
Kommersielle modeller (API-prising per mai 2026):
- Inworld TTS-1.5 Mini: 5-25 dollar per million tegn
- Inworld TTS-1.5 Max: 10-35 dollar per million tegn
- OpenAI gpt-4o-mini-tts: ca. 0,015 dollar per minutt audio
- Voxtral (Mistral): 0,016 dollar per 1000 tegn
- ElevenLabs: fra 5 dollar per måned til over 1300 dollar per måned avhengig av volum
Åpne og selvhostede alternativer:
- Kokoro 82M (Apache 2.0): under 1 dollar per million tegn ved selvhosting
- CosyVoice 2: åpen streaming-modell, kan kjøres lokalt
- VibeVoice (Microsoft): gratis, men kun engelsk og kinesisk
Viktig å merke seg: ElevenLabs er ikke lenger den åpenbare lederen på kvalitet i 2026, men de har den bredeste stemmebiblioteket og støtter kloning. For mange prosjekter er det verdt prisen. Jeg har testet ElevenLabs V3 Alpha tidligere – lydeffekter og flerstemme-funksjonene er unike i markedet.

Hva med norsk språkstøtte?
Her er det litt magert å si. De fleste benchmarkene kjøres på engelsk, og ytelse på norsk er sjelden dokumentert med tall. Basert på det jeg har testet:
Gemini 3.1 Flash TTS med stemmen Charon håndterer norsk remarkabelt bra – korrekt uttale, naturlig setningsrytme, ingen anglisering av norske ord. Det er langt bedre enn hva jeg forventet. Gemini 3.1 Flash har allerede vist seg sterk på tale-funksjonalitet generelt.
ElevenLabs støtter norsk, men uttalen kan bli merkbart anglisert på enkelte ord. OpenAI er OK men ikke imponerende på norsk. Kokoro støtter primært engelsk. For norsk innholdsproduksjon er Gemini TTS det eneste jeg ville anbefale uten forbehold.
Et sidespor verdt å nevne: NB-Whisper forstår norske dialekter bedre enn noen annen modell og er gratis tilgjengelig – men det er den andre veien, tale til tekst, ikke TTS. Poenget er at norsk-støtte i AI generelt er bedre enn mange tror.
Åpne modeller vs. kommersielle – er det verdt å bytte?
Kokoro 82M er den åpne modellen som har fått mest oppmerksomhet i 2026. Den er liten (82 millioner parametere), Apache 2.0-lisensiert, og kan kjøres lokalt. Lydkvaliteten er ikke på nivå med Gemini eller ElevenLabs, men den er overraskende god for størrelsen – og ved skala gir selvhosting betydelig kostnadsfordel.
Fish Audio S2 Pro er teknisk sett mer avansert, men den krever betalt lisens for kommersiell bruk – dermed mister du den viktigste fordelen med åpen kilde. Slik sett illustrerer den et mønster vi ser stadig oftere: «åpen» er ikke alltid det det ser ut som.
Jeg ser på åpne TTS-modeller omtrent som Flare TTS illustrerte: de er imponerende for sin størrelse og kostnad, men de kommersielle toppmodellene leder fortsatt på kvalitet. Spørsmålet er om kvalitetsforskjellen er verdt kostnadsforskjellen for ditt brukstilfelle.
For produksjon av innhold der folk faktisk skal høre på resultatet – podkast, lydbok, YouTube-voiceover – ville jeg bruke kommersiell API. For intern automatisering, prototyping eller volumproduksjon der kostnad er kritisk: åpen modell og selvhosting.
Benchmarks lyver ikke – men de forenkler
En ting jeg merker meg fra gjennomgangen: leverandørenes egne benchmarks favoriserer altfor forutsigbart leverandøren selv. Det er ikke overraskende, men det er et problem.
ELO-ranking fra Artificial Analysis er den metoden jeg stoler mest på – blindvalg eliminerer bias, og tallene er aggregert over mange brukere og mange klipp. Men husk at ELO måler gjennomsnittlig preferanse på engelske testklipp. For norsk, for spesifikke domener (medisinsk terminologi, egennavn, teknisk innhold) eller for spesifikke brukstilfeller (sanntid vs. batch) kan rangeringen se annerledes ut.
Tallene er øyeblikksbilder. Per mai 2026 leder Gemini 3.1 Flash TTS med ELO 1216, men feltets utvikling er rask. Gemini-familien oppdateres hyppig – rangeringen vil se annerledes ut om tre måneder.
Det praktiske rådet er enkelt: test de to-tre kandidatene som passer din priskategori og ditt brukstilfelle, med ditt eget innhold, på ditt eget språk. Ingen benchmark erstatter en hands-on test.