우루두어 감정 인식 교차 코퍼스 검증 연구

초록

본 논문은 저자원 언어인 우루두어의 음성 감정 인식을 위해 세 개의 서로 다른 감정 말뭉치를 활용한 교차‑코퍼스 평가 프레임워크를 제안한다. eGeMAPS와 ComParE 두 가지 도메인 지식 기반 음향 특징을 추출하고, 로지스틱 회귀와 다층 퍼셉트론 분류기로 감정을 분류한다. 평가 지표는 클래스 불균형을 고려한 비가중 평균 재현율(UAR)이며, 자기‑코퍼스 검증이 교차‑코퍼스 검증에 비해 최대 13% 높은 성능을 보임을 확인한다. 결과는 교차‑코퍼스 검증이 모델의 실제 일반화 능력을 더 정확히 측정한다는 점을 강조한다.

상세 요약

이 연구는 우루두어라는 저자원 언어에서 음성 감정 인식(SER)의 일반화 가능성을 체계적으로 검증한 최초의 시도 중 하나이다. 세 개의 독립적인 우루두어 감정 말뭉치(각기 다른 녹음 환경, 화자 수, 감정 라벨링 기준)를 선택함으로써 데이터 도메인 간 격차를 극대화하였다. 특징 추출 단계에서는 두 가지 널리 사용되는 도메인‑지식 기반 어쿠스틱 피처 세트인 eGeMAPS와 ComParE를 적용했는데, 전자는 감정 표현에 민감한 저차원 파라미터(피치, 포먼트, 에너지 등)를 88개, 후자는 6,373개의 고차원 특성을 제공한다. 이러한 이중 피처 전략은 저차원 특성의 해석 가능성과 고차원 특성의 표현력을 동시에 탐색할 수 있게 한다.

분류 모델로는 선형성 및 해석 용이성이 장점인 로지스틱 회귀와 비선형 관계를 학습할 수 있는 다층 퍼셉트론(MLP)을 채택했다. 로지스틱 회귀는 L2 정규화를 적용해 과적합을 방지했으며, MLP는 은닉층 2개(각 256, 128 뉴런)와 ReLU 활성화, Adam 옵티마이저(학습률 0.001)로 구성하였다. 학습 과정에서 클래스 불균형을 보정하기 위해 가중치 균형 기법을 적용하고, 평가 지표는 클래스별 재현율의 평균인 비가중 평균 재현율(UAR)을 사용했다.

실험 결과, 동일 코퍼스 내에서 5‑fold 교차 검증(self‑corpus validation)을 수행했을 때 UAR이 71.2%까지 도달했지만, 다른 코퍼스로 테스트했을 때는 최대 58.3%로 급격히 감소하였다. 특히 eGeMAPS 기반 로지스틱 회귀가 가장 안정적인 성능을 보였으며, ComParE 기반 MLP는 훈련 데이터에 과적합되는 경향이 관찰되었다. 교차‑코퍼스 평가에서 성능 격차가 13%에 달한다는 점은 기존 연구에서 흔히 보고되는 ‘실험실‑조건’ 성능이 실제 배포 환경에서는 과대평가될 가능성을 시사한다.

또한, 데이터셋 간 녹음 품질 차이, 화자 다양성, 감정 라벨링 일관성 부족이 모델 일반화에 큰 영향을 미친다는 정성적 분석을 제공한다. 이러한 요인은 향후 데이터 수집 단계에서 표준화된 프로토콜 도입과 다중 도메인 적응 기법(예: 도메인 어드버설 학습, 메타‑러닝)의 필요성을 강조한다.

결론적으로, 이 논문은 우루두어 SER 연구에 교차‑코퍼스 검증을 도입함으로써 모델의 실제 적용 가능성을 보다 객관적으로 평가할 수 있음을 입증했으며, 저자원 언어에서의 감정 인식 연구가 데이터 다양성 확보와 도메인 적응 전략에 집중해야 함을 제시한다.

초록

상세 요약

📜 논문 원문 (영문)