감정 인식을 위한 오디오 GAN 기반 표현 학습 모델

본 논문은 OMG Emotion Challenge에 제출하기 위한 오디오 전용 감정 인식 시스템을 설계하고 평가한다. 감정 표현을 음성으로부터 추출하는 작업은 전통적인 MFCC와 같은 수동 특징이 정보 손실을 초래하는 반면, 딥러닝 기반 모델은 원시 스펙트럼을 직접 학습함으로써 더 풍부한 표현을 얻을 수 있다. 그러나 딥러닝 모델은 대량의 라벨링된 감정 데이터가 필요하고, 실제 감정 데이터는 제한적이다. 이를 해결하고자 저자들은 반지도학습 전략을 채택한다. 구체적으로, IEMOCAP 데이터베이스를 이용해 BEGAN(Boundary Equilibrium GAN)을 비지도 학습한다. BEGAN의 판별자는 자동인코더 구조이며, 인코더는 입력 스펙트로그램을 저차원 잠재벡터로 압축한다. 이 인코더는 이후 OMG 데이터셋에서 오디오 표현을 추출하는 데 재사용된다. 전처리 단계에서는 모든 비디오 파일을 WAV 형식으로 변환하고, 샘플링 레이트를 16 kHz로 통일한다. 각 오디오 트랙은 1초 길이의 청크로 나누어 겹치지 않게 분할한다. 각 청크는 1024 포인트 FFT와 512 포인트 윈도우를 적용해 스펙트로그램으로 변환한다. 변환된 스펙트로그램은 사전 학습된 인코더에 입력되어 잠재 표현을 얻고, 이 표현은 연속적인 2‑D CNN 레이어와 tanh 활성화 함수를 가진 Dense 레이어를 거쳐 arousal와 valence를 -1에서 1 사이의 실수값으로 회귀한다. 예측 단계에서는 1초 청크마다 arousal와 valence를 추정하고, 전체 발화에 대한 최종 감정 점수는 각 청크 예측값의 중앙값을 사용한다. 중앙값 집계는 이상치와 순간적인 변동에 대한 강인성을 제공한다. 학습은 100 epoch, 배치 크기 16, γ=0.7의 하이퍼파라미터로 진행되었다. 실험 결과는 10번의 독립 실행에서 arousal와 valence에 대한 Concordance Correlation Coefficient(CCC)가 각각 0.15와 0.21을 초과하는 기존 베이스라인(Barros et al.)보다 우수함을 보여준다. 특히, 박스플롯을 통해 모델의 안정성과 성능 향상을 시각적으로 확인하였다. 이 시스템의 주요 장점은 (1) 대규모 비라벨 오디오 데이터(IEMOCAP)를 활용해 일반화된 음성 표현을 학습함으로써 라벨 부족 문제를 완화한다, (2) 학습된 인코더를 다른 감정 데이터셋이나 음성 관련 태스크에 재사용 가능하게 만든다, (3) 1초 청크 기반 예측과 중앙값 집계가 시간적 변동성을 효과적으로 억제한다는 점이다. 반면, 오디오만을 사용했기 때문에 시각·텍스트와의 멀티모달 융합 가능성을 놓쳤으며, BEGAN 훈련이 불안정할 수 있다는 한계도 존재한다. 향후 연구에서는 멀티모달 통합, 청크 오버랩 전략의 최적화, 최신 GAN 변형 적용 등을 통해 성능을 더욱 향상시킬 수 있을 것으로 기대된다.

감정 인식을 위한 오디오 GAN 기반 표현 학습 모델

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기