Whisper 기반 감정 인식: 주의 기반 풀링으로 효율적 차원 축소
초록
본 연구는 사전 학습된 ASR 모델인 Whisper의 인코더 출력을 활용해 감정 인식(SER)을 수행한다. 다중 헤드 주의 평균 풀링과 QKV 풀링이라는 두 가지 주의 기반 차원 축소 기법을 제안하고, 영어 IEMOCAP와 페르시아어 ShEMO 데이터셋에서 Whisper Tiny·Small 모델에 적용했다. 특히 다중 헤드 QKV 풀링은 ShEMO에서 기존 최고 성능을 2.47%p 상회하는 결과를 얻었으며, 중간 인코더 레이어가 저자원 언어에서 더 유리함을 확인했다. 이를 통해 대규모 모델(HuBERT X‑Large) 대비 경량 모델의 경쟁력을 입증한다.
상세 분석
이 논문은 Whisper 인코더가 제공하는 고차원 시퀀스 표현을 그대로 사용하면 연산량과 메모리 요구가 과도해진다는 문제를 인식하고, 이를 해결하기 위해 두 가지 주의 기반 풀링 메커니즘을 설계했다. 첫 번째인 Multi‑head Attentive Average Pooling은 각 프레임에 가중치를 부여해 평균을 계산하되, 헤드마다 별도의 작은 신경망을 통해 가중치를 학습한다. 이는 프레임별 감정 정보의 중요도 차이를 반영함으로써 정보 손실을 최소화한다. 두 번째인 Multi‑head QKV Pooling은 전역 평균 풀링으로 얻은 쿼리 벡터를 기준으로 키와 밸류를 매핑해 어텐션 스코어를 계산하고, 이를 통해 각 헤드에서 256‑차원의 요약 벡터를 추출한다. 최종적으로 모든 헤드 출력을 concat하고 선형 변환해 고정 차원(256)으로 압축한다.
실험에서는 Whisper Tiny와 Small 두 모델을 각각 영어 IEMOCAP와 페르시아어 ShEMO에 적용했으며, Whisper Small + QKV 풀링이 두 데이터셋 모두에서 기존 최고 성능에 근접하거나 능가했다. 특히 ShEMO에서는 무가중치 정확도(Unweighted Accuracy)에서 2.47%p 상승해 현재 최고 기록을 갱신했다. 레이어 분석 결과, 초기와 최종 레이어보다 중간 레이어(예: 6~9번째 블록)의 표현이 감정 구분에 더 유리함을 확인했으며, 이는 음성 신호의 저수준 음향 특성과 고수준 의미 정보가 적절히 혼합된 시점이 중간 레이어임을 시사한다.
또한, Whisper 기반 접근법을 HuBERT X‑Large와 비교했을 때 파라미터 수와 연산 비용이 수백 배 낮음에도 불구하고 비슷한 수준의 정확도를 달성함을 보여준다. 이는 사전 학습된 대규모 ASR 모델이 감정 인식이라는 다운스트림 작업에서도 강력한 전이 학습 능력을 가지고 있음을 실증한다. 코드와 모델 가중치를 공개함으로써 재현성과 확장성을 확보했으며, 향후 다국어 감정 인식 및 경량화된 음성 인터페이스에 적용 가능성을 열어두었다.
댓글 및 학술 토론
Loading comments...
의견 남기기