화자별 음성 감정 분석 연구

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대화 녹음에서 화자를 구분한 뒤, 각 화자의 음성 전사 텍스트에 감정 분석을 적용하는 방법을 제안한다. 화자 구분을 위해 딥러닝 기반 스피커 다이어리제이션과 전통적인 GMM‑UBM 방식을 비교하고, 전사 단계에서는 최신 ASR 모델을 활용한다. 감정 분류는 BERT와 LSTM‑CNN 하이브리드 모델을 시험하여 정확도와 효율성을 평가한다. 실험 결과, x‑vector 기반 화자 구분과 BERT 기반 텍스트 감정 분석이 가장 높은 성능을 보였으며, 화자별 감정 추적이 대화 이해에 유용함을 확인하였다.

상세 분석

본 연구는 음성 기반 감정 분석을 구현하기 위해 크게 세 단계로 구성된 파이프라인을 설계하였다. 첫 번째 단계는 화자 구분이다. 이를 위해 기존의 GMM‑UBM 기반 스피커 모델과 최신 딥러닝 기반 x‑vector, 그리고 최근 각광받는 ECAPA‑TDNN 모델을 실험하였다. 각 모델은 30초 길이의 발화 샘플을 이용해 사전 학습된 음성 특징 벡터를 추출하고, cosine similarity와 PLDA를 결합한 클러스터링 기법으로 화자를 식별하였다. 실험 결과, ECAPA‑TDNN이 93 % 이상의 화자 구분 정확도를 달성했으며, GMM‑UBM은 78 % 수준에 머물렀다.

두 번째 단계는 화자별 음성 전사이다. 화자 구분이 완료된 후, 각 화자별 오디오 스트림에 대해 최신 자동 음성 인식(ASR) 모델인 wav2vec 2.0와 Whisper를 적용하였다. 두 모델 모두 사전 학습된 대규모 음성 데이터셋을 활용했으며, Whisper가 한국어 전사에서 WER 12 %를 기록해 약간 우수한 성능을 보였다. 전사된 텍스트는 이후 감정 분석 단계의 입력으로 사용된다.

세 번째 단계는 텍스트 기반 감정 분석이다. 전사 텍스트에 대해 감정 라벨(긍정, 부정, 중립)과 세부 감정(기쁨, 슬픔, 분노, 놀람 등)을 부여하기 위해 BERT‑Kor, KoELECTRA, 그리고 LSTM‑CNN 하이브리드 모델을 비교하였다. BERT‑Kor는 사전 학습된 한국어 언어 모델에 감정 라벨링을 위한 fine‑tuning을 수행했으며, LSTM‑CNN는 시퀀스 정보를 장기적으로 보존하면서 지역적 특징을 추출하도록 설계되었다. 평가 지표는 정확도, F1‑score, 그리고 ROC‑AUC였다. BERT‑Kor가 전체 감정 분류에서 87 % 정확도와 0.91의 F1‑score를 기록해 가장 높은 성능을 보였으며, LSTM‑CNN은 실시간 추론 속도에서 약 30 % 빠른 장점을 제공했다.

또한, 화자 구분 오류가 감정 분석에 미치는 영향을 분석하였다. 화자 구분이 잘못된 경우, 전사 텍스트가 혼합되어 감정 라벨링 오류가 증가한다는 점을 확인했으며, 특히 화자 간 감정 차이가 큰 대화에서 오류율이 15 %까지 상승하였다. 이를 보완하기 위해 화자 구분 confidence score를 감정 분석에 가중치로 적용하는 방법을 제안했으며, 실험 결과 전체 시스템 정확도가 2 % 향상되었다.

마지막으로, 시스템의 실시간 적용 가능성을 검증하기 위해 GPU 기반 추론 파이프라인을 구축하였다. 전체 처리 시간은 평균 1.8 초(화자 구분 0.6 초 + 전사 0.9 초 + 감정 분석 0.3 초)로, 실시간 대화 모니터링에 충분히 활용 가능함을 입증하였다.

화자별 음성 감정 분석 연구

초록

상세 분석

댓글 및 학술 토론

의견 남기기