음성 감정 인식을 위한 재발동역학 통합
본 논문은 음성 프레임의 위상공간을 재구성하고, 그에 대한 재발 플롯(Recurrence Plot)을 이용해 12가지 RQA 지표를 추출한다. 프레임‑레벨 특징을 18가지 통계 함수로 집계해 432차원의 비선형 특징 집합을 만든 뒤, 기존의 IS10 LLD 기반 특징과 결합한다. SVM·LR 기반의 발화‑단위 분류와 Attention‑BLSTM 기반의 세그먼트‑단위 분류에서 제안 특징을 평가한 결과, 화자‑종속·화자‑독립·LOSO 실험 모두에서…
저자: Efthymios Tzinis, Georgios Paraskevopoulos, Christos Baziotis
본 연구는 음성 감정 인식(SER) 분야에서 기존에 널리 사용되어 온 저수준 기술 파라미터(LLD) 기반 특징이 선형 음성 모델에 의존한다는 한계를 극복하고자, 비선형 동역학을 포착할 수 있는 재발 플롯(Recurrence Plot, RP)과 재발 정량화 분석(Recurrence Quantification Analysis, RQA)을 도입하였다.
먼저, 입력 음성 신호를 20 ms 프레임으로 나눈 뒤, 각 프레임에 대해 평균 상호정보(Average Mutual Information)와 거짓 최근접 이웃(False Nearest Neighbors) 기법을 이용해 최적의 시간 지연 τ와 임베딩 차원 m을 자동으로 추정한다. 이를 통해 m‑차원 위상공간(Phase Space) 궤적을 재구성하고, 각 궤적 점들 사이의 거리 행렬을 Manhattan 거리와 고정 재발률(Recurrence Rate, 0.1~0.2) 기준으로 이진화하여 RP를 만든다. RP는 시스템이 동일하거나 유사한 상태를 반복하는 패턴을 시각적으로 나타내며, 이러한 패턴을 정량화하기 위해 12개의 RQA 지표(재발률, 결정성, 최대 대각선 길이, 평균 대각선 길이, 대각선 엔트로피, 라미나리티, 최대 수직 길이, 트래핑 타임, 수직 엔트로피, 최대 백수직 길이, 평균 백수직 길이, 백수직 엔트로피)를 추출한다.
프레임‑레벨 12차원 RQA 특징에 대해 최소·최대·평균·중앙값·분산·왜도·첨도·범위·다양한 백분위수·사분위 범위 등 18가지 통계 함수를 적용해 프레임 시퀀스를 요약한다. 이 과정에서 얻어진 432차원 벡터를 기존의 IS10 특징(1582차원)과 결합해 총 2014차원 고차원 특징을 구성한다.
평가 방법은 두 가지로 나뉜다. 첫 번째는 발화‑단위(utterance‑based) 접근법으로, 각 발화를 하나의 고정 길이 벡터로 변환한 뒤 SVM(RBF)과 로지스틱 회귀(LR) 모델을 학습한다. 두 번째는 세그먼트‑단위(segment‑based) 접근법으로, 1 s 길이와 0.5 s 스트라이드로 발화를 여러 세그먼트로 분할하고, 각 세그먼트에 대해 위와 동일한 통계 특징을 추출한다. 이렇게 얻어진 시퀀스를 입력으로 Attention‑BLSTM(A‑BLSTM) 네트워크를 사용해 감정 라벨을 예측한다.
실험은 세 개의 공개 데이터베이스(SAVEE, Emo‑DB, IEMOCAP)를 활용했다. 화자‑종속(SD) 설정에서는 5‑fold 교차검증을, 화자‑독립(SI) 설정에서는 leave‑one‑speaker‑out 교차검증을, 그리고 IEMOCAP에서는 세션을 화자 그룹으로 간주한 LOSO(Leave‑One‑Session‑Out) 평가를 수행했다.
결과는 다음과 같다. SD 실험에서 RQA+IS10 특징을 LR 분류기에 적용했을 때, SAVEE에서 가중 정확도(WA)가 77.1%→80.2%(+3.1%), 무게 없는 정확도(UA)가 74.5%→77.9%(+3.4%) 상승했으며, Emo‑DB에서는 WA 88.4%→93.3%(+4.9%), UA 87.2%→92.9%(+5.7%) 향상되었다. SI 실험에서는 특히 LR 모델에서 IS10만 사용했을 때 WA 48.5%에 불과했지만, RQA+IS10 결합 시 WA가 54.0%로, UA가 53.8%로 크게 상승하였다(UA 43.1%→53.8%, +10.7%). 이는 비선형 동역학 정보가 화자 간 일반화에 크게 기여함을 의미한다.
IEMOCAP의 LOSO 실험에서는 세그먼트‑기반 A‑BLSTM에 RQA+IS10 특징을 투입했을 때, 최신 BLSTM·CNN 기반 모델과 동등하거나 더 높은 UA(≈77.9%)와 WA를 달성하였다. 이는 재발 플롯이 감정 표현의 미세한 시간적 변화를 포착하고, LSTM 기반 시퀀스 모델이 이를 효과적으로 활용할 수 있음을 보여준다.
또한, RP 생성 시 Manhattan 거리와 고정 재발률 설정이 가장 안정적인 성능을 제공했으며, 프레임 길이 20 ms가 최적임을 확인하였다. 이러한 파라미터 선택은 다른 언어·코퍼스에도 적용 가능할 것으로 보인다.
결론적으로, 본 논문은 비선형 동역학 분석을 SER 파이프라인에 성공적으로 통합한 최초의 사례 중 하나이며, 기존 LLD 기반 접근법에 비해 감정 구분의 미세한 차이를 포착하는 새로운 차원을 제공한다. 향후 연구에서는 RQA 특징을 심층 신경망의 자체 학습 과정에 직접 삽입하거나, 실시간 시스템에 적용하기 위한 계산 효율성 개선 방안을 모색할 여지가 있다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기