오픈소스 음악 생성의 새 지평 ACE Step 버전1
초록
ACE‑Step v1.5는 언어 모델과 디퓨전 트랜스포머를 결합한 하이브리드 구조로, 4 GB 이하 VRAM에서 10 초 이내에 고품질 음악을 생성한다. 자체 강화학습을 통한 내부 정렬, 27 M 샘플 데이터 파이프라인, 1D VAE 기반 고해상도 오디오 압축, 그리고 LoRA 기반 스타일 맞춤 기능을 제공한다.
상세 분석
본 논문은 오픈소스 음악 생성 모델이 상용 솔루션과 경쟁할 수 있는 실용적 경로를 제시한다. 가장 큰 혁신은 LM(언어 모델)을 ‘Composer Agent’로 활용해 사용자의 모호한 프롬프트를 구조화된 YAML 형식의 메타데이터와 양자화된 소스 라틴트로 변환하는 점이다. 이렇게 생성된 청사진은 DiT(Diffusion Transformer)에게 명확한 조건을 제공해, 음향 렌더링에만 집중하도록 설계되었다.
데이터 측면에서는 5 M개의 고품질 샘플을 Gemini 2.5 Pro로 초기 라벨링하고, 이를 기반으로 Qwen2.5‑Omni를 파인튜닝해 ACE‑Captioner와 ACE‑Transcriber를 만든 뒤, 4 M개의 대조 쌍을 활용해 보상 모델을 학습시킨다. 이후 GRPO 기반 강화학습으로 캡셔너를 정제하고, 최종 27 M 샘플 전체에 적용해 고정밀 텍스트‑오디오 정렬을 확보한다.
음향 모델은 48 kHz 스테레오 파형을 64‑차원 25 Hz 라틴트로 압축하는 1D VAE를 도입해 멜‑스펙트로그램의 위상 손실을 극복한다. DiT는 2 B 파라미터 규모이며, 슬라이딩 윈도우 어텐션과 글로벌 그룹 쿼리 어텐션을 교차 배치해 로컬 트랜지언트와 장기 리듬을 동시에 포착한다. FSQ 토크나이저를 통해 25 Hz 라틴트를 5 Hz 이산 코드(≈64 k 코드북)로 변환, 마스크 기반 생성 프레임워크에 삽입한다.
학습 파이프라인은 기초 사전학습 → 옴니‑태스크 파인튜닝 → 고품질 SFT 순으로 진행되며, 최종 단계에서는 동적‑시프트 디스틸레이션(Decoupled DMD2)과 GAN 기반 판별기를 사용해 50 → 8 스텝으로 압축한다. 이 과정에서 KL 패널티를 제거하고 적대적 손실 비중을 높여 텍스처를 선명하게 만든다.
내부 정렬을 위한 강화학습은 DiT의 어텐션 정렬 점수(AAS)와 LM의 PMI 기반 보상을 결합한다. AAS는 커버리지, 모노토니시티, 경로 신뢰도를 DTW로 측정해 가사‑오디오 동기화를 95 % 이상 인간 평가와 일치시킨다. LM은 ‘Composer’와 ‘Listener’ 두 역할을 동시에 수행해 자체 생성 코드와 텍스트 사이의 상호 일관성을 최적화한다.
실험 결과, ACE‑Step v1.5는 SongEval, Style Align, Lyric Align 등 주요 지표에서 상용 모델(Suno‑v5 등)과 동등하거나 우수한 성능을 보이며, 4 GB 이하 VRAM에서도 10 초 미만, A100에서는 2 초 이내에 10 분 길이의 트랙을 생성한다. 또한 LoRA 기반 파인튜닝으로 몇 곡만으로도 사용자 고유 스타일을 캡처할 수 있다.
전체적으로 본 연구는 고효율 압축, 멀티모달 플래닝, 내부 강화학습이라는 세 축을 결합해 오픈소스 음악 생성의 상용화 가능성을 크게 확대한다.
댓글 및 학술 토론
Loading comments...
의견 남기기