Jeg har lekt med mange TTS-løsninger opp gjennom årene. De fleste krever enten sky-APIer med løpende kostnader, eller leverer kvalitet som høres ut som en GPS fra 2008. Pocket-TTS er noe annet.
Hva er Pocket-TTS?
Pocket-TTS er en open source tekst-til-tale-modell fra Kyutai. Den kjører helt lokalt på din egen maskin – ingen sky, ingen API-nøkler, ingen løpende kostnader.
Og den er rask. Veldig rask.
Mine tester
Jeg genererte fem forskjellige lydklipp for å teste hastighet og kvalitet:
- Intro (YouTube-stil): 5.2 sek audio på 4.4 sek → 1.2x raskere
- Nyheter (Breaking news): 10.0 sek audio på 5.7 sek → 1.8x raskere
- Historie (Skrekkfortelling): 7.8 sek audio på 4.4 sek → 1.8x raskere
- Tech (Teknisk forklaring): 8.4 sek audio på 4.9 sek → 1.7x raskere
- Casual (Uformell prat): 5.0 sek audio på 2.9 sek → 1.7x raskere
Totalt: 36.4 sekunder audio generert på 22.4 sekunder. Det er 1.6x raskere enn sanntid på min RTX 4090. Modellen lastes på under ett sekund etter første gang.
Kvaliteten
Stemmen høres troverdig ut. Ikke perfekt – du hører at det er syntetisk hvis du lytter nøye – men absolutt god nok for prototyping, bakgrunnsfortelling i videoer, og eksperimentering med AI-historiefortelling.
Jeg brukte Pocket-TTS til å lage fortellerstemmen i min AI-genererte skrekkhistorie. Kombinert med lokale bildemodeller og LTX Video 2, ble resultatet en komplett AI-film uten en eneste API-kall.
Begrensninger
Pocket-TTS støtter foreløpig best engelsk. Norsk er et lite språk, og lokale TTS-modeller sliter fortsatt med uttalen vår. For norsk innhold må du enten akseptere aksent, eller vente på bedre modeller.
Installasjon
pip install pocket-tts
Så enkelt er det. Første kjøring laster ned modellvektene fra HuggingFace automatisk.
Konklusjon
Pocket-TTS er et av de verktøyene som får meg til å smile. Enkelt å installere, raskt å kjøre, og kvaliteten er god nok til reell bruk.
For de som vil eksperimentere med AI-tale uten å betale per tegn til sky-tjenester, er dette et solid valg. Og når du kombinerer det med lokale bilde- og videomodeller? Da har du en komplett AI-produksjonspipeline på din egen maskin.
Lenker: HuggingFace | GitHub