Pocket-TTS: Lokal tekst-til-tale som faktisk fungerer

Innhold Vis

Jeg har lekt med mange TTS-løsninger opp gjennom årene. De fleste krever enten sky-APIer med løpende kostnader, eller leverer kvalitet som høres ut som en GPS fra 2008. Pocket-TTS er noe annet.

Hva er Pocket-TTS?

Pocket-TTS er en open source tekst-til-tale-modell fra Kyutai. Den kjører helt lokalt på din egen maskin – ingen sky, ingen API-nøkler, ingen løpende kostnader.

Og den er rask. Veldig rask.

Mine tester

Jeg genererte fem forskjellige lydklipp for å teste hastighet og kvalitet:

Intro (YouTube-stil): 5.2 sek audio på 4.4 sek → 1.2x raskere
Nyheter (Breaking news): 10.0 sek audio på 5.7 sek → 1.8x raskere
Historie (Skrekkfortelling): 7.8 sek audio på 4.4 sek → 1.8x raskere
Tech (Teknisk forklaring): 8.4 sek audio på 4.9 sek → 1.7x raskere
Casual (Uformell prat): 5.0 sek audio på 2.9 sek → 1.7x raskere

Totalt: 36.4 sekunder audio generert på 22.4 sekunder. Det er 1.6x raskere enn sanntid på min RTX 4090. Modellen lastes på under ett sekund etter første gang.

Kvaliteten

Stemmen høres troverdig ut. Ikke perfekt – du hører at det er syntetisk hvis du lytter nøye – men absolutt god nok for prototyping, bakgrunnsfortelling i videoer, og eksperimentering med AI-historiefortelling.

Jeg brukte Pocket-TTS til å lage fortellerstemmen i min AI-genererte skrekkhistorie. Kombinert med lokale bildemodeller og LTX Video 2, ble resultatet en komplett AI-film uten en eneste API-kall.

Begrensninger

Pocket-TTS støtter foreløpig best engelsk. Norsk er et lite språk, og lokale TTS-modeller sliter fortsatt med uttalen vår. For norsk innhold må du enten akseptere aksent, eller vente på bedre modeller.

Installasjon

pip install pocket-tts

Så enkelt er det. Første kjøring laster ned modellvektene fra HuggingFace automatisk.

Konklusjon

Pocket-TTS er et av de verktøyene som får meg til å smile. Enkelt å installere, raskt å kjøre, og kvaliteten er god nok til reell bruk.

For de som vil eksperimentere med AI-tale uten å betale per tegn til sky-tjenester, er dette et solid valg. Og når du kombinerer det med lokale bilde- og videomodeller? Da har du en komplett AI-produksjonspipeline på din egen maskin.

Lenker: HuggingFace | GitHub