Innhold Vis
Hvis du noen gang har prøvd å sette opp et lokalt AI-musikkverktøy, kjenner du frustrasjonen: feil Python-versjon, en avhengighet som krasjer mot en annen, et virtuelt miljø som spiser en hel kveld før du i det hele tatt har generert én tone. Nå finnes det et alternativ som dropper Python helt.
audio.cpp er et åpen kildekode-rammeverk skrevet i ren C++ og bygget på ggml – samme tensor-bibliotek som driver llama.cpp. Prosjektet har akkurat fått en stor oppdatering: musikkgenerering, lydeffekter og kildeseparasjon er lagt til som en samlet modul, med flere kjente modeller pakket inn i én motor du kan kjøre direkte fra kommandolinjen.
Det er ikke bare enda en wrapper. Poenget med ggml-tilnærmingen – den samme filosofien som gjorde det mulig å kjøre store språkmodeller på en vanlig bærbar – er at du slipper hele Python-stabelen. Ingen pip install, ingen CUDA-versjonskrangel, ingen 8 GB med avhengigheter for å generere 30 sekunder lyd.
Hva er audio.cpp?
audio.cpp er en C++-motor for lyd-AI uten Python-avhengighet, bygget på ggml-biblioteket som også ligger under llama.cpp. Den kjører alt fra tale-til-tekst og talesyntese til musikkgenerering og kildeseparasjon i ett og samme rammeverk.
Prosjektet startet som et TTS-fokusert verktøy (tekst-til-tale), men har vokst til å dekke det meste av lydsiden av AI: talegjenkjenning, stemmekonvertering, VAD (stemmeaktivitetsdeteksjon) og nå altså musikk. Alt kjøres gjennom samme CLI eller en lokal REST-server, så du kan bruke det som en erstatning for flere separate Python-prosjekter du ellers måtte satt opp hver for seg.
Den siste oppdateringen, som ble omtalt på r/LocalLLaMA, legger til en hel batch med nye modeller for musikk, lydeffekter og separasjon – alt sammen native C++-implementasjoner, ikke Python-skript pakket inn i en wrapper.
Hvilke modeller er med i denne oppdateringen?
Batchen inkluderer flere modeller jeg allerede har skrevet om i sin opprinnelige, Python-baserte form – nå portert til ren C++/ggml:
- ACE-Step 1.5 (Turbo og Base) – musikkgeneratoren jeg har dekket tidligere som en gratis Suno-utfordrer du kan kjøre lokalt
- Stable Audio 3 Small (musikk og lydeffekter) og Medium – modellen jeg tidligere har skrevet om med åpne vekter og tekst-til-lyd-generering
- HeartMuLa – en modell for lokal, long-form musikkgenerering (HeartMuLa-oss-3B)
- Mel-Band RoFormer – en modell for kildeseparasjon (skille vokal fra instrumentering)
- HTDemucs – den mest brukte åpne modellen for å dele opp et musikkspor i vokal, bass, trommer og resten
Med andre ord: du får generering, lydeffekter og separasjon i samme motor, i stedet for å måtte sette opp tre-fire ulike prosjekter med hver sin Python-versjon.

Hvor mye raskere er det egentlig?
Tittelen på Reddit-innlegget lover et 10-minutters musikkspor generert på 60 sekunder. Jeg har ikke selv kjørt tallene på egen maskinvare ennå, så ta det som utviklerens egen påstand snarere enn en verifisert benchmark – men det er ikke urimelig gitt hva prosjektet allerede har vist på andre modeller i rammeverket.
audio.cpp-prosjektet oppgir at TTS-modellene i motoren kjører 1,8 til 5 ganger raskere enn sine originale Python-implementasjoner på en RTX 5090, og at én modell (PocketTTS) genererte 353 sekunder lyd på bare 7,3 sekunder. Det er den typen fart du får når du kutter ut Python-overheaden og kjører alt native mot GPU-en – samme gevinst llama.cpp-prosjektet demonstrerte for språkmodeller for et par år siden, nå anvendt på lyd.
Hva trenger du av maskinvare?
audio.cpp støtter CUDA, Vulkan, Metal og ren CPU-kjøring, så du er ikke låst til Nvidia. Selve rammeverket bygges med CMake og en vanlig C++-kompilator (utviklerne anbefaler GCC 13 eller nyere på Linux) – ingen Python-runtime i det hele tatt.
Det gjør terskelen for å prøve dette betydelig lavere enn de fleste musikkgenerator-oppsett jeg har testet i gjennomgangen av AI-verktøy for musikk og lyd: du slipper å holde styr på hvilken PyTorch-versjon som matcher hvilken CUDA-versjon som matcher hvilket Python-miljø. Du bygger prosjektet én gang med en vanlig kompilator, og kjører modellene derfra.

Hvorfor betyr Python-fri kjøring noe i praksis?
Dette er ikke bare et nerd-poeng. Python-avhengigheter er den vanligste grunnen til at lokale AI-verktøy dør etter noen måneder – en oppdatert biblioteksversjon et sted i kjeden bryter noe helt annet, og plutselig er hele oppsettet ødelagt igjen. En kompilert C++-binær har ikke det problemet på samme måte. Bygg den én gang, og den fortsetter å virke.
Samme tankegang lå bak llama.cpp da det kom: å kjøre store språkmodeller uten en tung Python-stabel gjorde lokal AI tilgjengelig for langt flere enn de som var villige til å feilsøke avhengigheter. audio.cpp prøver å gjøre det samme for lyd og musikk – og med denne oppdateringen dekker det nå både generering og separasjon i samme verktøy.
Er dette noe for deg som ikke koder?
Foreløpig krever audio.cpp at du bygger det selv fra kildekode med CMake, så det er ikke et ferdig program du dobbeltklikker på. Er du komfortabel med terminal og har bygget noe fra kildekode før (for eksempel llama.cpp selv), er terskelen grei. For deg som bare vil generere musikk uten å tenke på kompilering, er ferdige verktøy som ACE-Step sitt eget grensesnitt eller Suno fortsatt et enklere sted å starte.
Der audio.cpp virkelig gir mening er hvis du allerede kjører flere lyd-AI-verktøy lokalt og er lei av å administrere separate Python-miljøer for hver av dem. Da er poenget nettopp å samle alt i én motor.
Ofte stilte spørsmål
Er audio.cpp gratis og åpen kildekode?
Ja, prosjektet ligger åpent på GitHub og bygger videre på ggml-biblioteket, som også ligger under llama.cpp. Du kan laste ned kildekoden og bygge det selv uten kostnad.
Trenger jeg et Nvidia-skjermkort for å kjøre audio.cpp?
Nei. Rammeverket støtter CUDA, Vulkan, Metal og ren CPU-kjøring, så det fungerer på AMD- og Apple-maskinvare også, ikke bare Nvidia-kort.
Kan audio.cpp erstatte Suno for lokal musikkgenerering?
Det kjører modeller som ACE-Step 1.5 og Stable Audio 3, som begge er lokale alternativer til Suno. Kvaliteten avhenger av selve modellen, ikke motoren – audio.cpp gjør dem bare raskere og enklere å sette opp.
Hva er forskjellen på audio.cpp og llama.cpp?
llama.cpp kjører språkmodeller lokalt uten Python. audio.cpp bruker samme ggml-tensorbibliotek, men er bygget for lyd-AI: talesyntese, talegjenkjenning, musikkgenerering og kildeseparasjon i stedet for tekst.