Jan Sverre Bauge tester Pocket-TTS lokalt med headset og mikrofon
Lokal TTS som faktisk fungerer – og er raskere enn sanntid.

Jeg har lekt med mange TTS-løsninger opp gjennom årene. De fleste krever enten sky-APIer med løpende kostnader, eller leverer kvalitet som høres ut som en GPS fra 2008. Pocket-TTS er noe annet.

Hva er Pocket-TTS?

Pocket-TTS er en open source tekst-til-tale-modell fra Kyutai. Den kjører helt lokalt på din egen maskin – ingen sky, ingen API-nøkler, ingen løpende kostnader.

Og den er rask. Veldig rask.

Mine tester

Jeg genererte fem forskjellige lydklipp for å teste hastighet og kvalitet:

  • Intro (YouTube-stil): 5.2 sek audio på 4.4 sek → 1.2x raskere
  • Nyheter (Breaking news): 10.0 sek audio på 5.7 sek → 1.8x raskere
  • Historie (Skrekkfortelling): 7.8 sek audio på 4.4 sek → 1.8x raskere
  • Tech (Teknisk forklaring): 8.4 sek audio på 4.9 sek → 1.7x raskere
  • Casual (Uformell prat): 5.0 sek audio på 2.9 sek → 1.7x raskere

Totalt: 36.4 sekunder audio generert på 22.4 sekunder. Det er 1.6x raskere enn sanntid på min RTX 4090. Modellen lastes på under ett sekund etter første gang.

Kvaliteten

Stemmen høres troverdig ut. Ikke perfekt – du hører at det er syntetisk hvis du lytter nøye – men absolutt god nok for prototyping, bakgrunnsfortelling i videoer, og eksperimentering med AI-historiefortelling.

Jeg brukte Pocket-TTS til å lage fortellerstemmen i min AI-genererte skrekkhistorie. Kombinert med lokale bildemodeller og LTX Video 2, ble resultatet en komplett AI-film uten en eneste API-kall.

Begrensninger

Pocket-TTS støtter foreløpig best engelsk. Norsk er et lite språk, og lokale TTS-modeller sliter fortsatt med uttalen vår. For norsk innhold må du enten akseptere aksent, eller vente på bedre modeller.

Installasjon

pip install pocket-tts

Så enkelt er det. Første kjøring laster ned modellvektene fra HuggingFace automatisk.

Konklusjon

Pocket-TTS er et av de verktøyene som får meg til å smile. Enkelt å installere, raskt å kjøre, og kvaliteten er god nok til reell bruk.

For de som vil eksperimentere med AI-tale uten å betale per tegn til sky-tjenester, er dette et solid valg. Og når du kombinerer det med lokale bilde- og videomodeller? Da har du en komplett AI-produksjonspipeline på din egen maskin.

Lenker: HuggingFace | GitHub

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *

You May Also Like

Jeg lagde 150 sanger med Suno AI – Her er hva jeg lærte

8 måneders erfaring med Suno AI-musikk. Engelsk er topp, norsk er greit nok. Tippoldefars dikt ble til sanger. Ærlig vurdering fra 150+ genererte låter.

Suno AI Copyright – Hva du trenger å vite om rettigheter (2025)

Komplett guide til Suno AI copyright-regler. Pro vs Free, kommersielt bruk, juridiske fallgruver og profesjonelle tips. Oppdatert ToS november 2025.

Jeg testet Nano Banana Pro: AI som faktisk skriver norsk i bilder

Endelig! En AI som kan generere norsk tekst i bilder med 94% nøyaktighet. Jeg testet Nano Banana Pro grundig – her er resultatene.

Google NotebookLM

Google NotebookLM er en AI-assistent som gjør dokumenter om til interaktive samtaler, studieguidere og podcasts på norsk. Nå drevet av Gemini 3 Pro med nye funksjoner som infographics, slide decks og Deep Research. Komplett guide til gratis vs. Plus-versjon.