Jeg har lekt med mange TTS-løsninger opp gjennom årene. De fleste krever enten sky-APIer med løpende kostnader, eller leverer kvalitet som høres ut som en GPS fra 2008. Pocket-TTS er noe annet.

Hva er Pocket-TTS?

Pocket-TTS er en open source tekst-til-tale-modell fra Kyutai. Den kjører helt lokalt på din egen maskin – ingen sky, ingen API-nøkler, ingen løpende kostnader.

Og den er rask. Veldig rask.

Mine tester

Jeg genererte fem forskjellige lydklipp for å teste hastighet og kvalitet:

  • Intro (YouTube-stil): 5.2 sek audio på 4.4 sek → 1.2x raskere
  • Nyheter (Breaking news): 10.0 sek audio på 5.7 sek → 1.8x raskere
  • Historie (Skrekkfortelling): 7.8 sek audio på 4.4 sek → 1.8x raskere
  • Tech (Teknisk forklaring): 8.4 sek audio på 4.9 sek → 1.7x raskere
  • Casual (Uformell prat): 5.0 sek audio på 2.9 sek → 1.7x raskere

Totalt: 36.4 sekunder audio generert på 22.4 sekunder. Det er 1.6x raskere enn sanntid på min RTX 4090. Modellen lastes på under ett sekund etter første gang.

Kvaliteten

Stemmen høres troverdig ut. Ikke perfekt – du hører at det er syntetisk hvis du lytter nøye – men absolutt god nok for prototyping, bakgrunnsfortelling i videoer, og eksperimentering med AI-historiefortelling.

Jeg brukte Pocket-TTS til å lage fortellerstemmen i min AI-genererte skrekkhistorie. Kombinert med lokale bildemodeller og LTX Video 2, ble resultatet en komplett AI-film uten en eneste API-kall.

Begrensninger

Pocket-TTS støtter foreløpig best engelsk. Norsk er et lite språk, og lokale TTS-modeller sliter fortsatt med uttalen vår. For norsk innhold må du enten akseptere aksent, eller vente på bedre modeller.

Installasjon

pip install pocket-tts

Så enkelt er det. Første kjøring laster ned modellvektene fra HuggingFace automatisk.

Konklusjon

Pocket-TTS er et av de verktøyene som får meg til å smile. Enkelt å installere, raskt å kjøre, og kvaliteten er god nok til reell bruk.

For de som vil eksperimentere med AI-tale uten å betale per tegn til sky-tjenester, er dette et solid valg. Og når du kombinerer det med lokale bilde- og videomodeller? Da har du en komplett AI-produksjonspipeline på din egen maskin.

Lenker: HuggingFace | GitHub

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *

Meld deg på nyhetsbrevet

Få oppdateringer om AI nyhetene rett i inboxen!

Du liker kanskje denne også
Jan Sverre arbeider med Suno AI musikk-generering på datamaskinen, kreativt workspace med hodetelefoner

Suno AI – 150 Låter Testet: Hva Funker og Hva Er Bortkastet Tid

Jeg testet 150 Suno-låter og fant tydelige mønstre. Her er hva som faktisk gir kvalitet, og hva som bare kaster bort tid.
Jan Sverre med headphones og lydmikser i boardroom-møte med forvirrede executives

Suno AI Copyright 2026 – Opphavsrett og Rettigheter for AI-Musikk

Kan du tjene penger på Suno-musikk? Her er en praktisk gjennomgang av rettigheter, risiko og hva du bør avklare før publisering.
Jan Sverre riding a dinosaur in safari outfit, photorealistic AI-generated image demonstrating Nano Banana Pro capabilities

Jeg testet Nano Banana Pro: AI som faktisk skriver norsk i bilder

Endelig! En AI som kan generere norsk tekst i bilder med 94% nøyaktighet. Jeg testet Nano Banana Pro grundig – her er resultatene.
Jan Sverre sitter ved sitt kraftige AI-workstation oppsett med ultrawide skjerm og flere PC-er som kjører Ollama og lokale LLM-modeller

Ollama Guide – Kjør AI Gratis og Lokalt på Din Egen PC (2026)

Komplett guide til Ollama og lokale LLM-er på RTX 4090. Lær quantisering, Hugging Face import, beste modeller (Gemma 3, Qwen 3), GDPR-fordeler og full kostnadskontroll.