Whisper 임베딩을 활용한 가사 매칭 파이프라인 WEALY
초록
WEALY는 Whisper 디코더 임베딩을 직접 추출하고, 트랜스포머 기반 적응 레이어와 NT‑Xent 대조 학습을 결합해 음악 버전 식별(MVI) 과제를 통해 가사 기반 매칭 성능을 검증한다. 재현성을 강조한 코드·체크포인트 공개와 다중 데이터셋·다양한 베이스라인 비교를 통해 기존 비재현성 방법과 동등한 수준을 달성한다.
상세 분석
본 논문은 가사 매칭을 위한 완전 end‑to‑end 파이프라인을 제안한다. 첫 단계에서는 Whisper‑turbo 디코더의 최종 레이어 출력을 “lyrics‑aware latent” 로 활용한다. 기존 연구가 텍스트 전사 후 임베딩을 만드는 데 비해, 본 방법은 전사 과정 자체를 건너뛰고 오디오에서 직접 의미 정보를 추출한다는 점에서 차별화된다. Whisper는 30초 겹치는 청크 단위로 로그‑멜 스펙트로그램을 입력받아, 디코더가 생성한 가변 길이의 히든 상태들을 연결해 전체 트랙을 하나의 긴 행렬 H( m × 1280 ) 로 만든다. 이때 무음 구간은 자동으로 생략돼 효율성이 높다.
두 번째 단계에서는 H에서 고정 길이 k=1500의 서브시퀀스를 무작위 샘플링하고, 선형 투사 후 4‑layer 트랜스포머 인코더( d_h=768, 12 heads, FFN=1024) 로 컨텍스트를 강화한다. 시간 축은 Generalized Mean Pooling(GeM) 으로 압축해 d_e=512 차원의 최종 임베딩 z 를 얻는다. 학습은 NT‑Xent(τ=0.1) 기반 대조 손실을 사용해 동일 버전 쌍을 가까이, 다른 곡은 멀리 배치한다.
실험은 DiscogsVI‑YT, SHS100k‑v2, LyricCovers2.0 등 세 데이터셋에서 MAP 기준으로 평가했으며, TF‑IDF, Whisper‑AvgEmb, Whisper‑ASR‑SBERT 등 다양한 베이스라인을 포함했다. WEALY는 대부분의 경우 베이스라인을 앞서며, 특히 Whisper‑AvgEmb 대비 10‑15% MAP 향상을 보였다. Ablation에서는 NT‑Xent이 Triplet·CLEWS보다 우수하고, GeM 풀링이 단순 평균보다 안정적인 성능을 제공함을 확인했다. 다국어 실험에서는 Whisper의 다언어 능력을 유지했을 때가 영어 전용 전사보다 더 좋은 결과를 내며, 언어 제약이 성능 저하를 초래함을 입증했다. 또한, CLEWS와의 late‑fusion 실험에서 α=1 로 단순 합산했을 때 소폭 개선되었지만, WEALY 자체만으로도 강력한 베이스라인임을 강조한다.
재현성 측면에서 코드와 모델 체크포인트를 공개하고, 학습 하이퍼파라미터와 데이터 전처리 과정을 상세히 기술했다. 제한점으로는 Whisper‑turbo 모델에 의존해 최신 Whisper 버전이 나오면 재학습이 필요하고, 5분 길이 제한이 긴 곡에 대한 정보 손실 가능성이 있다. 향후 연구는 소스 분리와 결합, 더 큰 컨텍스트 윈도우, 그리고 멀티모달(가사 + 멜로디) 통합을 통해 성능을 한층 끌어올릴 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기