ACE-Step 1.5 XL – 4B Language Model og Chain-of-Thought musikk-AI

Innhold Vis

ACE-Step 1.5 XL er en betydelig oppdatering av den open source musikk-AI-en som jeg testet i februar. XL-versjonen doblet modellstørrelsen til 4 milliarder parametere og la til en helt ny komponent: en 4B Language Model basert på Qwen3. Jeg har kjørt den på min RTX 4090 og resultatene er blandede – men interessante.

Den korte versjonen: instrumentalmusikk og engelsk vokal fungerer veldig bra. Norsk vokal fungerer ikke. Det er en vesentlig begrensning for oss, men det betyr ikke at verktøyet er ubrukelig – langt ifra.

Denne artikkelen går gjennom hva som faktisk er nytt i XL-oppdateringen, hva Chain-of-Thought-systemet gjør, og hva mine tester viste i praksis. Hvis du ikke har lest den første artikkelen om ACE-Step, anbefaler jeg å ta en kikk på den grunnleggende guiden først.

Hva er nytt i ACE-Step 1.5 XL?

Den forrige versjonen brukte en 2B DiT (Diffusion Transformer). XL-versjonen har en 4B DiT med hidden size 2560, 32 lag og 32 attention heads. Det er dobbelt så mange parametere, og det merkes i kvaliteten – spesielt på komplekse lydscener.

Men den virkelige nyheten er Language Model-komponenten. ACE-Step har lagt til en egen 4B LM kalt acestep-5Hz-lm-4B, trent på Qwen3-4B med en kombinasjon av pre-training, supervised fine-tuning og reinforcement learning. Denne LM-en gjør to ting:

Chain-of-Thought metadata: Genererer automatisk BPM, toneart, taktart og en detaljert musikkbeskrivelse fra prompten din
Audio semantic codes: Genererer semantiske lydkoder som styrer DiT-en under syntesen

Resultatet er at LM-en fungerer som en «musiker som planlegger» før DiT-en faktisk lager lyden. Det ligner på hvordan Chain-of-Thought fungerer i tekstmodeller – mer planlegging gir bedre resultat.

Teknisk arkitektur under panseret

Hele pipelinen har fire faser som kjøres sekvensielt:

LM Phase 1 (Chain-of-Thought): LM-en analyserer prompten din og genererer strukturert metadata – toneart, BPM, taktart, og en utvidet caption som beskriver musikken i detalj. Den skriver i praksis en «oppskrift» for musikken.
LM Phase 2 (Audio codes): Basert på oppskriften genererer LM-en semantiske lydkoder – mellom 600 og 900 tokens avhengig av lengden på musikken (5 koder per sekund ved 5Hz sampling rate).
DiT Diffusion (8 steg i turbo): Diffusion Transformer-en tar lydkodene og genererer audio latents gjennom 8 flow-matching steg. Turbo-varianten er distillert ned fra 50 steg uten CFG.
VAE Decode: Variational Autoencoder dekoder latents til faktisk waveform. Bruker tiled decode for VRAM-effektivitet.

Det som er interessant er fordelingen av tid: LM-en tar 80-90% av genereringstiden, mens selve diffusjonen er nesten gratis. Det er det motsatte av hva du kanskje forventer fra en «diffusjonsmodell».

Diagram som viser ACE-Step XL sin to-fase pipeline med Chain-of-Thought planlegging, lydkoder og DiT syntese — ACE-Step XL sin fire-fase pipeline – fra prompt til ferdig musikk

Hva skjer uten Language Model aktivert?

Dette er det viktigste tekniske punktet i hele oppdateringen: LM-en MÅ være aktivert for å få brukbar kvalitet.

Jeg testet dette eksplisitt. Uten LM får du flat, generisk lyd som ikke har noe særpreg. Med LM aktivert er forbedringen massiv – strukturen henger bedre sammen, energien i musikken er mer konsistent, og modellen treffer sjangeren mye bedre.

Du verifiserer at LM er aktiv ved å se etter llm_initialized=True, use_lm=True i loggene, etterfulgt av «Phase 1: Generating CoT metadata…» og «Phase 2: Generating audio codes…». Ser du llm_initialized=False i stedet, er det noe galt med konfigurasjonen.

Totalnedlastingen er rundt 25 GB (DiT ca. 9 GB, LM ca. 8 GB, pluss VAE og diverse). Du trenger minst 24 GB VRAM for å kjøre full XL + 4B LM med full kvalitet. Det betyr RTX 3090/4090 eller bedre. Med CPU offload kan du komme ned til 16 GB, og INT8 quantization gjør det mulig på 12 GB – men da ofrer du noe kvalitet.

Modellvarianter – hvilken skal du velge?

XL-oppdateringen kom med tre varianter av selve DiT-en:

acestep-v15-xl-turbo – 8 inference-steg, raskest. Dette er den jeg testet.
acestep-v15-xl-sft – 50 steg, høyest kvalitet
acestep-v15-xl-base – 50 steg, mest variasjon og kreativitet

LM-en kommer også i tre størrelser:

LM-modell	Parametere	Lydforståelse	Komposisjon	VRAM-krav (kun LM)
acestep-5Hz-lm-0.6B	600M	Middels	Middels	< 2 GB
acestep-5Hz-lm-1.7B	1,7 mrd	Middels	Middels	< 4 GB
acestep-5Hz-lm-4B	4 mrd	Sterk	Sterk	< 8 GB

For best mulig resultat: XL-turbo DiT + 4B LM. Har du under 24 GB VRAM kan du bruke 2B DiT + 1.7B LM og fortsatt få gode resultater.

Mine tester på RTX 4090 – hva fungerte og hva fungerte ikke?

Jeg kjørte fire tester med turbo-varianten (8 steg) og 4B LM. Her er hva jeg fant. Musikken du hører i videoene under er rett ut av ACE-Step 1.5 XL uten noen form for etterbehandling. Men ren lyd på internett føles litt nakent – jeg vil heller ha noe visuelt å se på mens jeg lytter.

Så jeg ga AI frie tøyler til å lage videoene også. Eneste kravet var at videoen skulle genereres med LTX. Utover det fikk den velge fritt mellom open source og skytjenester for bildematerialet. På noen tracks brukte den kun lokale
verktøy, på andre en blanding av Nano Banana 2 og Flux lokalt, og på noen valgte den selv ut referansebilder å bruke. Ett prompt, fire sanger, fire videoer – ingen menneskelig gjennomgang av det visuelle. Det du ser er rett ut fra AI.

Test 1: Psychedelic Acid Trip – instrumental, 3 minutter

Dette fungerte veldig bra. Behagelig stemning, god atmosfære, og modellen traff sjangeren godt uten at jeg trengte å finpusse prompten mye. LM-en utvidet prompten min til en detaljert beskrivelse med «atmospheric soundscape», «progressive house», «filter sweeps» og «euphoric climax» – alt på egen hånd.

Metadata generert av LM: B-moll, 4/4 takt, 90 BPM

Test 2: Norwegian Protest Rock – norsk vokal, 2 minutter

Her gikk det galt. Modellen uttaler æ, ø og å som a, o og a. «Strøm» blir «strom», «får» blir «far», «blør» blir «blor». Resultatet er ikke brukbart for norskspråklig musikk. LM-en klarte fint å generere metadata (E-dur, 130 BPM) og utvidet captionen godt, men selve vokalen er problemet.

Metadata generert av LM: E-dur, 4/4 takt, 130 BPM

Test 3: Epic Pirate Orchestra – instrumental, 3 minutter

Middels resultat. Musikken har trykk og kraft, men den mangler den store «episke» følelsen jeg var ute etter. Modellen kompenserer litt med volum i stedet for dynamikk. Fungerer for prototyping, men ikke som final produkt for denne sjangeren.

Metadata generert av LM: D-moll, 2/4 takt, 110 BPM

Test 4: Synthwave Cyberpunk – engelsk vokal, 2,5 minutter

Her traff modellen bra. 80-talls synthwave-lyden er på plass, engelsk uttale fungerer fint, og det er gode hooks. LM-en ga den «gated-reverb drum machine», «arpeggiated synthesizers» og «breathy female lead vocal» – og resultatet matchet beskrivelsen.

Metadata generert av LM: Eb-dur, 4/4 takt, 110 BPM

Detaljerte generasjonstider per track

Her er de faktiske tallene fra mine tester på RTX 4090 (24 GB VRAM) med XL-turbo DiT og 4B LM:

Track	Lengde	LM Phase 1 (CoT)	LM Phase 2 (codes)	DiT (8 steg)	VAE	Total
Psychedelic Acid Trip	3 min	24,4s*	33,4s (900 codes)	1,8s	~1,5s	~61s
Norwegian Protest Rock	2 min	6,1s	19,7s (600 codes)	1,0s	~1,0s	~28s
Epic Pirate Orchestra	3 min	6,3s	29,0s (900 codes)	1,6s	~1,5s	~38s
Synthwave Cyberpunk	2,5 min	5,9s	24,2s (750 codes)	1,3s	~1,2s	~33s

* Første generering tar lengre tid på grunn av LM warm-up. Påfølgende genereringer bruker 5-7 sekunder på Phase 1.

Mønsteret er tydelig: LM Phase 2 er flaskehalsen og skalerer lineært med lengden – rundt 10 sekunder per minutt musikk. DiT-en med sine 8 turbo-steg er nesten gratis (1-2 sekunder uansett lengde). Og antall audio codes følger en enkel formel: 5 codes per sekund, så 2 minutter = 600 codes, 3 minutter = 900 codes.

Gjennomsnittlige tider etter warm-up

LM Phase 1 (Chain-of-Thought): 5-7 sekunder
LM Phase 2 (lydkoder): ~10 sekunder per minutt musikk
DiT (8 turbo-steg): 1-2 sekunder
VAE decode: 1-2 sekunder
Totalt: 30-40 sekunder for 2-3 minutters musikk

Hastighet på andre GPU-er

ACE-Step publiserer Real-Time Factor (RTF) – hvor mange ganger raskere enn sanntid modellen genererer:

GPU	RTF (27 steg)	RTF (60 steg)	Ca. tid for 3 min track
RTX 4090	34,5x	15,6x	~35-40s
NVIDIA A100	27,3x	12,3x	~45-50s
RTX 3090	12,8x	6,5x	~90-120s
MacBook M2 Max	2,3x	1,0x	~7-10 min

Turbo-varianten (8 steg) er enda raskere enn tallene over, som er basert på 27/60 steg. Men mønsteret er det samme – RTX 4090 er klart raskest, og M2 Max henger med, men tar sin tid.

Stolpediagram som sammenligner ACE-Step XL generasjonstider på RTX 4090, A100 og RTX 3090 målt i ganger sanntid — Real-Time Factor for ulike GPU-er – høyere er raskere

ACE-Step XL vs Suno – hva velger du?

Suno koster rundt 88 kroner i måneden for Pro-planen med 500 sanger. ACE-Step er gratis, men krever GPU og litt teknisk oppsett.

Suno er åpenbart enklere – du logger inn i en nettleser og genererer. Men du er låst til skyen, du eier ikke modellen, og du er avhengig av at Suno fortsetter å eksistere. Med ACE-Step kjører du lokalt, har full kontroll, og MIT-lisensen betyr at du kan bruke musikken kommersielt uten å bekymre deg for vilkår som endres.

For norsk vokal er Suno klart bedre akkurat nå. ACE-Step XL håndterer norske æ/ø/å feil, og det er en reell begrensning. For instrumental musikk og engelsk vokal er spørsmålet mer åpent – ACE-Step XL leverer kvalitet som absolutt konkurrerer.

Se gjerne den komplette guiden til AI-musikkgenerering for en bredere sammenligning av verktøyene som finnes.

Installasjon og konfigurasjon

Oppsettet er overraskende enkelt med uv (Pythons nye pakkebehandler):

git clone https://github.com/ace-step/ACE-Step-1.5
cd ACE-Step-1.5
uv sync
uv run acestep

Modellene lastes ned automatisk ved første kjøring – totalt rundt 25 GB. For å sikre at du kjører XL med 4B LM, sjekk at .env-filen har disse innstillingene:

ACESTEP_CONFIG_PATH=acestep-v15-xl-turbo
ACESTEP_LM_MODEL_PATH=acestep-5Hz-lm-4B
ACESTEP_INIT_LLM=auto
ACESTEP_DEVICE=auto

Hva støtter ACE-Step 1.5 XL?

Modellen støtter flere arbeidsflyter utover vanlig text-to-music:

Cover generation – lag en cover-versjon av eksisterende musikk
Repainting – endre deler av en låt mens du beholder resten
Vocal-to-BGM – generer bakgrunnsmusikk fra en vokal-innspilling
Audio extraction – trekk ut individuelle elementer fra et lydspor
Lyric editing – endre teksten i en eksisterende generert sang via flow-edit
Audio extension – forleng en eksisterende låt naturlig

Mer enn 50 språk er teknisk støttet, men som mine tester viste er kvaliteten veldig varierende. Engelsk er tryggeste valg. Kinesisk og russisk skal ifølge dokumentasjonen også gi gode resultater.

Er XL-oppdateringen verdt det?

Ja, hvis du har 24 GB VRAM. Doblingen fra 2B til 4B parametere er merkbar, og Language Model-komponenten gjør en stor forskjell for musikalsk struktur og sjanger-presisjon. Chain-of-Thought-tilnærmingen – der modellen tenker gjennom BPM, toneart og struktur før den genererer – er et smart designvalg.

Begrensningene er reelle: norsk vokal fungerer ikke, og hardware-kravene er høye. Men for instrumental musikk, engelskspråklig musikk, og alle de kreative arbeidsflytene som repainting og vocal-to-BGM er ACE-Step 1.5 XL et seriøst verktøy.

30-40 sekunder for en ferdig låt, gratis, lokalt, med MIT-lisens. Det er ikke lite verdt.

ACE-Step 1.5 XL – 4B Language Model og Chain-of-Thought musikk-AI

Neste

OpenAI-memo avslører frykten for Anthropic – enterprise-kamp og regnskapsstrid

Skribent

Jan Sverre Bauge

tagger

Del artikkel

Innhold Vis

Hva er nytt i ACE-Step 1.5 XL?

Teknisk arkitektur under panseret

Hva skjer uten Language Model aktivert?

Modellvarianter – hvilken skal du velge?

Mine tester på RTX 4090 – hva fungerte og hva fungerte ikke?

Test 1: Psychedelic Acid Trip – instrumental, 3 minutter

Test 2: Norwegian Protest Rock – norsk vokal, 2 minutter

Test 3: Epic Pirate Orchestra – instrumental, 3 minutter

Test 4: Synthwave Cyberpunk – engelsk vokal, 2,5 minutter

Detaljerte generasjonstider per track

Gjennomsnittlige tider etter warm-up

Hastighet på andre GPU-er

ACE-Step XL vs Suno – hva velger du?

Installasjon og konfigurasjon

Hva støtter ACE-Step 1.5 XL?

Er XL-oppdateringen verdt det?

Legg igjen en kommentar Avbryt svar

Suno AI – 150 Låter Testet: Hva Funker og Hva Er Bortkastet Tid

Suno AI Copyright 2026 – Opphavsrett og Rettigheter for AI-Musikk

Claude AI – pris, funksjoner og norsk guide (2026)

Jeg testet Nano Banana Pro: AI som faktisk skriver norsk i bilder

Afroman vant – politiet krevde 4 millioner, juryen ga dem null

PewDiePie AI Council – Da Supreme Leader ble forrÅdt av sine egne

Suno AI – 150 Låter Testet: Hva Funker og Hva Er Bortkastet Tid

Suno AI Copyright 2026 – Opphavsrett og Rettigheter for AI-Musikk

Claude AI – pris, funksjoner og norsk guide (2026)

Kaffegrut i Hagen – Slik Bruker Du Det som Gjødsel og Skadedyrbekjemper

Sterk Chili Kaffe

Stekt Kylling i Airfryer

Kaffekaramell

ACE-Step 1.5 XL – 4B Language Model og Chain-of-Thought musikk-AI

Neste

Skribent

tagger

Del artikkel

Innhold Vis

Hva er nytt i ACE-Step 1.5 XL?

Teknisk arkitektur under panseret

Hva skjer uten Language Model aktivert?

Modellvarianter – hvilken skal du velge?

Mine tester på RTX 4090 – hva fungerte og hva fungerte ikke?

Test 1: Psychedelic Acid Trip – instrumental, 3 minutter

Test 2: Norwegian Protest Rock – norsk vokal, 2 minutter

Test 3: Epic Pirate Orchestra – instrumental, 3 minutter

Test 4: Synthwave Cyberpunk – engelsk vokal, 2,5 minutter

Detaljerte generasjonstider per track

Gjennomsnittlige tider etter warm-up

Hastighet på andre GPU-er

ACE-Step XL vs Suno – hva velger du?

Installasjon og konfigurasjon

Hva støtter ACE-Step 1.5 XL?

Er XL-oppdateringen verdt det?

Legg igjen en kommentar Avbryt svar

Meld deg på nyhetsbrevet

Du liker kanskje denne også