다중음악 환경에서 가사 정렬을 위한 음향 모델링

본 논문은 가사와 오디오를 정확히 동기화하는 자동 정렬 시스템을 구축하기 위해, (1) 기존 MFCC와 i‑vector에 추가적인 음성·음악 인포메이션 특징을 결합하고, (2) 솔로 보컬에 대해 대규모로 학습된 음향 모델을 소량의 폴리포닉(다중음악) 데이터로 적응시키는 두 가지 접근법을 제안한다. 서론에서는 가사‑오디오 정렬이 노래의 보컬이 배경음악에 의해 왜곡되는 문제와, 라벨링된 폴리포닉 코퍼스가 부족한 현실을 언급한다. 기존 연구들은 음성‑텍스트 정렬 기법을 그대로 적용하거나, 보컬 분리 전처리를 사용했지만, 분리 아티팩트와 별도 모델 훈련의 복잡성을 지적한다. 본 연구는 이러한 문제를 해결하기 위해 OpenSMILE 툴킷을 활용해 다섯 개의 저수준 특징 그룹을 정의한다. 보이싱(V) 그룹은 F0, jitter, shimmer 등을 포함해 음성의 기본 주파수 변동을 포착하고, 에너지(E) 그룹은 청각 스펙트럼의 총 에너지와 RMS, 제로 크로싱 등을 제공한다. 청각(A) 그룹은 RASTA‑style 스펙트럼을 통해 배경음악에 강인한 특성을 추출하며, 스펙트럼(S) 그룹은 스펙트럼 센트로이드, 플럭스, 롤오프 등 음악적 텍스처를 나타낸다. 마지막으로 크로마(C) 그룹은 12개의 반음 강도를 나타내어 조화 정보를 보완한다. 이러한 특징들은 각각 26~30개의 LLD와 그 차분값을 포함해 총 154 차원을 추가한다. 음향 모델은 Kaldi 기반의 TDNN‑F 구조에 2개의 컨볼루션 레이어와 10개의 타임‑딜레이 레이어, 차원 축소 레이어를 포함한다. 기본 모델은 40차원 MFCC와 100차원 i‑vector를 사용해 DAMP 솔로 보컬 데이터(약 50시간)로 학습한다. 데이터 증강으로 속도 변형(x0.9, x1.1)을 적용해 모델의 일반화 능력을 높였다. 도메인 적응 단계에서는 DALI 데이터셋의 105곡 중 99곡(폴리포닉, 라벨 검증됨)을 활용한다. 두 가지 적응 경로를 실험했는데, (a) 보컬 분리된 DALI 데이터를 이용해 기존 모델을 재학습(C3, C4)하고, (b) 원본 폴리포닉 DALI 데이터를 그대로 사용해 적응(C5, C6)한다. 적응 과정은 은닉층 가중치를 초기화하고, 소수 에폭 동안 낮은 학습률로 진행한다. 실험은 두 가지 환경에서 수행되었다. 첫 번째는 Hansen‑solo 데이터(7곡)에서 추가 특징이 평균 경계 오류를 0.20 s에서 0.13 s로 감소시키고, %Correct를 91.5%→94.1%로 향상시켰다. 특히 청각(A)와 스펙트럼(S) 그룹이 독립적으로도 큰 기여를 했으며, 보이싱(V) 그룹은 단독 사용 시 성능 저하를 보였지만 다른 그룹과 결합될 때는 전체적인 견고성을 높였다. 두 번째는 폴리포닉 환경(Mauch‑poly, Hansen‑poly, DALI‑test)에서의 평가이다. 기본 모델(C1)은 평균 AE가 4.12 s였으나, 청각·스펙트럼 특징을 포함한 C2 모델은 3.45 s로 개선되었다. 보컬 분리 후 적응(C3, C4)은 2.87 s, 직접 폴리포닉 데이터로 적응(C5, C6)은 2.45 s까지 오류를 줄였다. 표준편차와 중앙값도 모두 감소했으며, 250 ms 내 정확도(%C)는 68%→82% 수준으로 크게 상승했다. 결론적으로, (1) 음성·음악 인포메이션 특징을 MFCC와 결합하면 솔로와 폴리포닉 모두에서 정렬 정확도가 향상되고, (2) 소량의 고품질 폴리포닉 라벨을 이용한 모델 적응이 배경음악에 의한 도메인 불일치를 효과적으로 완화한다는 것을 입증했다. 향후 연구에서는 더 큰 규모의 폴리포닉 라벨, 멀티모달(악보, 가사 텍스트) 정보 통합, 그리고 실시간 정렬을 위한 경량화 모델 개발이 필요하다.

다중음악 환경에서 가사 정렬을 위한 음향 모델링

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기