확산 기반 음색 변환 인페인팅
초록
본 논문은 사전 학습된 라티스 확산 모델을 활용해, 추가 학습 없이 추론 단계에서 음색 전환을 수행하는 경량 방법을 제안한다. 악기 정체성을 가장 많이 담고 있는 라티스 채널에 차원별 노이즈를 주입하고, 역확산 초기 단계에서 멜로디와 리듬 구조를 고정하는 클램핑 메커니즘을 도입한다. 텍스트·오디오 조건(CLAP 등)과도 호환되며, 타임스텝 제어만으로 스타일 전환 효과를 얻을 수 있음을 실험을 통해 입증한다.
상세 분석
이 연구는 기존의 음악 스타일 전환이 대규모 재학습이나 복잡한 파인튜닝을 요구하는 문제점을 해결하고자, 사전 학습된 라티스 확산 모델(LDM)을 그대로 두고 추론 단계에서만 조작하는 방법을 고안했다. 핵심 아이디어는 두 가지이다. 첫째, 악기 정체성을 가장 많이 반영하는 라티스 차원을 식별하고, 해당 차원에 선택적으로 가우시안 노이즈를 주입한다는 점이다. 이를 위해 사전 학습된 CLAP(Contrastive Language‑Audio Pre‑training) 임베딩과 라티스 채널 간의 상관관계를 분석해, 정보량이 높은 채널을 ‘음색 채널’로 정의한다. 차원별 노이즈 주입은 기존 확산 과정에서의 무작위성에 비해 훨씬 목표 지향적이며, 원하는 악기 특성만을 교란시켜 새로운 음색을 생성한다. 둘째, 역확산 과정 초기에 클램핑 메커니즘을 적용한다. 역확산은 일반적으로 노이즈를 점진적으로 제거하면서 원본 데이터를 복원하는데, 초기 몇 스텝에서 입력 오디오의 멜로디와 리듬 정보를 강제로 재삽입함으로써 구조적 손실을 최소화한다. 이는 ‘구조 보존’과 ‘음색 변형’ 사이의 트레이드오프를 조절하는 간단하지만 효과적인 수단이다. 또한, 텍스트 프롬프트나 CLAP 기반 오디오 조건을 그대로 전달할 수 있어, 다중 모달 조건부 생성이 자연스럽게 이루어진다. 실험에서는 기존의 파인튜닝 기반 음색 전환 모델과 비교해, 동일한 사전 학습 모델을 사용함에도 불구하고 음색 변환 정도와 구조 보존율 모두 경쟁력을 보였으며, 특히 추론 시간 제어 파라미터(노이즈 강도, 클램핑 스텝)를 조절함으로써 사용자가 원하는 변환 강도를 직관적으로 선택할 수 있음을 확인했다. 이와 같이 사전 학습된 확산 모델을 ‘플러그‑인’ 형태로 활용하는 접근은 모델 재사용성을 크게 높이고, 음악 제작 워크플로우에 실시간 스타일 편집 기능을 제공한다는 점에서 의미가 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기