사이클‑일관성 경계균형 GAN을 활용한 노래 스타일 전이

본 논문은 페어링되지 않은 음성 데이터를 이용해 가수의 성별 스타일을 변환하는 모델을 제안한다. CycleGAN에 BEGAN 학습 전략을 결합하고, U‑Net 형태의 스킵 연결과 GRU 기반 순환 레이어를 추가해 스펙트로그램을 변환한 뒤 Griffin‑Lim으로 복원한다. iKala 데이터셋을 활용한 청취 테스트에서 가장 복합적인 모델이 모든 평가 항목에서 최고 점수를 얻었다.

저자: Cheng-Wei Wu, Jen-Yu Liu, Yi-Hsuan Yang

사이클‑일관성 경계균형 GAN을 활용한 노래 스타일 전이
본 논문은 “Singing Style Transfer Using Cycle‑Consistent Boundary Equilibrium Generative Adversarial Networks”라는 제목으로, 페어링되지 않은 음성 데이터를 활용해 가수의 스타일, 특히 성별을 변환하는 새로운 방법론을 제시한다. 연구 동기는 유명 래퍼가 다른 곡을 부르는 모습을 구현하고자 하는 ‘노래 스타일 전이’ 문제이며, 기존 방법들은 동일 곡을 부른 소스와 타깃 데이터가 필요해 실용성이 떨어진다. 이를 해결하기 위해 이미지 분야에서 성공한 CycleGAN을 기반으로, BEGAN의 경계균형 학습 전략을 결합한 CycleBEGAN 구조를 도입한다. 시스템은 두 단계로 구성된다. 첫 번째 단계는 기존 보컬 분리 모델을 사용해 원본 트랙에서 반주와 보컬을 분리한다(본 논문에서는 완전한 보컬이 입력된다고 가정). 두 번째 단계가 본 논문의 핵심으로, 변환 모델은 로그‑스펙트로그램을 입력으로 받아 변환된 스펙트로그램을 출력한다. STFT는 1,024‑샘플 윈도우와 1/4 오버랩을 적용해 44.1 kHz 샘플링된 오디오에 수행되며, 스펙트로그램을 T × F 형태의 2D 이미지로 취급한다. 모델은 1D 컨볼루션 레이어만을 사용해 시간 축의 연속성을 유지하고, 풀링 없이 전부를 Fully‑Convolutional 설계함으로써 가변 길이 입력을 자연스럽게 처리한다. 구조적 변형은 다섯 가지 모델로 실험된다. m1은 기본 CycleGAN‑CNN이며, m2는 U‑Net 형태의 대칭 스킵 연결을 추가한다. m3은 CycleGAN 대신 BEGAN 판별자를 사용한 CycleBEGAN‑CNN이며, m4는 m3에 스킵 연결을 결합한다. 마지막으로 m5는 m4에 GRU 기반 순환 레이어를 삽입해 시간적 의존성을 모델링한다. 스킵 연결은 인코더와 디코더 사이에 상세 정보를 직접 전달해 고해상도 음성 재현을 돕고, BEGAN 판별자는 기존 PatchGAN보다 훈련 안정성을 제공한다. 순환 레이어는 멜‑스펙트로그램의 연속적인 피치를 보다 정확히 유지하도록 설계되었다. 학습 데이터는 iKala 데이터셋에서 추출한 252개의 30초 클린 보컬을 5초 클립(4초 오버랩)으로 나누어 구성한다. 각 성별당 2,800개의 클립을 훈련에, 100개의 클립을 테스트에 사용했으며, 테스트는 학습 데이터와 겹치는 ‘inside test’ 환경이다. 청취 평가에서는 69명의 성인(여성 19명)을 대상으로 MOS 설문을 진행했으며, 평가 항목은 Sharpness, Lyrics intelligibility, Pitch, Naturalness, Gender change, Overall 총 6가지이다. 실험 결과는 다음과 같다. 스킵 연결이 없는 m1, m3에 비해 스킵 연결을 포함한 m2, m4, m5는 Sharpness와 Lyrics 점수에서 현저히 높은 점수를 기록했다. Pitch 측면에서는 CycleBEGAN 계열(m3‑m5)이 CycleGAN 계열(m1‑m2)보다 우수했으나, m2는 원본을 거의 그대로 재구성하는 경향이 있어 성별 변환에서는 낮은 점수를 받았다. Naturalness 역시 스킵 연결이 있는 모델이 전반적으로 우수했으며, 특히 m5는 가장 높은 Naturalness와 Overall 점수를 얻었다. Gender 변환 정확도 역시 m5가 가장 높은 점수를 받아, 전체적인 스타일 전이 목표를 가장 잘 달성한 것으로 평가된다. 결론적으로, 본 연구는 비페어링 데이터 기반의 노래 스타일 전이 프레임워크를 성공적으로 구현했으며, BEGAN을 결합한 CycleGAN 변형이 훈련 안정성과 스타일 변환 효율성을 동시에 향상시킨다는 점을 입증했다. 또한, 스킵 연결과 순환 레이어가 음성 품질 및 성별 변환에 미치는 긍정적 영향을 정량적으로 확인했다. 향후 연구에서는 성별이 아닌 구체적인 가수 아이덴티티 전이, 그리고 실제 곡에 적용하기 위한 보컬 분리 모델과의 통합을 목표로 하고 있다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기