성별 기반 감정 인식 HMM과 SPHMM을 활용한 두 단계 접근법
초록
본 연구는 성별 인식기를 앞단에 두고, 그 결과를 이용해 감정 인식기를 작동시키는 두 단계 구조를 제안한다. 기본 감정(중립 포함) 6가지를 대상으로, 전통적인 HMM과 초분절(Suprasegmental) HMM(SPHMM)을 비교 실험하였다. 자체 구축 데이터베이스와 EPST 데이터베이스 두 곳에서 검증한 결과, 성별 정보를 활용한 경우 감정 인식 정확도가 기존 성별 무관 모델 대비 평균 11 %, 실제 성별 정보를 완벽히 제공받은 모델 대비 평균 5 % 향상되었다. 특히 SPHMM에 완전히 편향된 모델이 가장 높은 성능을 보였으며, 인간 청취자 평가와의 차이는 2.28 %에 불과했다.
상세 분석
본 논문은 감정 인식 성능이 여전히 낮은 현상을 극복하기 위해 ‘성별‑감정 이중 인식기(two‑stage recognizer)’라는 새로운 프레임워크를 설계하였다. 첫 번째 단계는 음성 신호에서 화자의 성별을 판별하는 HMM 기반 성별 인식기로, 남·여 두 클래스로 구분한다. 성별 판별 정확도는 96 % 이상으로 보고되어, 이후 단계에 전달되는 성별 라벨의 신뢰성을 확보한다. 두 번째 단계에서는 성별별로 별도의 감정 모델을 학습한다. 여기서 사용된 두 종류의 모델은 전통적인 HMM과 Suprasegmental HMM(SPHMM)이다. SPHMM은 음성의 초분절적 특성(예: 억양, 리듬, 강세)을 명시적으로 모델링함으로써, 감정에 민감한 장기적 패턴을 포착한다는 점에서 차별화된다.
실험은 두 개의 독립된 데이터베이스에서 수행되었다. 첫 번째는 연구진이 자체 수집한 한국어 감정 음성 데이터베이스이며, 두 번째는 공개된 Emotional Prosody Speech and Transcripts(EPST) 데이터베이스이다. 두 데이터베이스 모두 남·여 화자와 6가지 기본 감정(행복, 슬픔, 분노, 놀람, 혐오, 중립)을 포함한다. 각 감정마다 최소 30개의 발화가 확보되어, 학습·검증·테스트를 교차 검증 방식으로 진행하였다.
성별 정보를 전혀 사용하지 않은 ‘성별 무관 모델’과, 실제 성별 라벨을 완벽히 제공받은 ‘성별 완전 모델’ 두 기준과 비교했을 때, 제안된 두 단계 모델은 평균 11 %와 5 %의 정확도 향상을 기록했다. 특히 SPHMM에만 의존한 모델이 가장 높은 인식률을 보였으며, 이는 감정 표현이 주로 초분절적 특징에 의해 좌우된다는 가설을 실증한다. 반면, 전통적인 HMM 기반 모델은 음향적 특징에 의존하므로, 성별에 따른 음성 스펙트럼 차이가 감정 구분에 혼선을 야기한다는 한계를 드러냈다.
또한, 인간 청취자에 의한 주관적 평가와의 차이를 2.28 %로 제한함으로써, 제안 시스템이 인간 수준에 근접한 감정 인식 능력을 갖추었음을 확인하였다. 이 결과는 실시간 감정 인식이 요구되는 인간‑컴퓨터 인터페이스, 콜센터 감정 모니터링, 그리고 정서 기반 서비스 등에 실용적으로 적용될 가능성을 시사한다. 다만, 데이터베이스가 제한된 언어와 문화적 배경에 국한되어 있다는 점, 그리고 성별 이진 구분이 비이진적 성 정체성을 반영하지 못한다는 윤리적·사회적 한계도 논의되었다. 향후 연구에서는 다중 언어·다문화 데이터와 비이진 성별 모델을 도입하고, 딥러닝 기반 초분절 특성 추출과 결합함으로써 더욱 일반화된 감정 인식 시스템을 구축할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기