노래 가사 이해도 예측 혁신 LIWhiz

노래 가사 이해도 예측 혁신 LIWhiz
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

LIWhiz는 Whisper 기반 프리트레인 모델을 특징 추출기에 사용하고, 양방향 LSTM과 선형 혼합 레이어로 구성된 비침입형 백엔드를 통해 원본 음악과 청각 손실 시뮬레이션된 버전을 동시에 입력받아 가사 이해도 점수를 예측한다. Cadenza CLIP 데이터셋에서 검증·평가 세트 모두 RMSE 27 % 이하, NCC 0.65 이상을 달성해 기존 STOI 기반 비침입형 및 Whisper 기반 침입형 베이스라인보다 크게 우수한 성능을 보였다.

상세 분석

본 논문은 음악 청취자, 특히 청각 손실을 겪는 사용자를 위한 가사 이해도(Lyric Intelligibility, LI) 예측 모델을 제안한다. 핵심 아이디어는 최신 음성 인식 모델인 Whisper를 프리트레인된 상태로 고정(frozen)하여, 원본 오디오(x)와 청각 손실을 시뮬레이션한 오디오(y)에서 각각 66개의 특징 맵을 추출하는 것이다. Whisper의 인코더와 디코더 각각 32개의 트랜스포머 레이어와 초기 CNN 블록을 활용해, 1,280 차원의 시간‑프레임(F×T) 및 토큰‑프레임(F×M) 특징을 얻는다.

특징 결합 단계에서는 레이어별 가중치를 학습 가능한 선형 혼합 레이어(LML)로 구현한다. 인코더와 디코더 각각에 대해 가중치 w(l)ₓ, w(l)ᵧ를 학습함으로써, 어느 레이어가 LI 예측에 더 기여하는지를 데이터에 맞게 자동 조정한다. 결합된 인코더 임베딩 Eₓ와 디코더 임베딩 Eᵧ는 각각 Bi‑LSTM에 입력되어 최종 은닉 상태 hₑ와 h_d(각각 2×H, H=512)를 생성한다. 이 두 은닉 상태를 concat하여 4×H 차원의 벡터 h를 만든 뒤, 시그모이드 활성화 단일 뉴런을 통해


댓글 및 학술 토론

Loading comments...

의견 남기기