음성 감정 인식을 위한 포컬 손실 기반 잔차 합성곱 신경망
초록
본 논문은 스펙트로그램과 MFCC와 같은 음성 특징을 입력으로 사용하고, 잔차 구조를 갖는 합성곱 신경망(ResNet)에 포컬 손실(Focal Loss)을 적용하여 음성 감정 인식 성능을 향상시키는 방법을 제안한다. 포컬 손실은 학습 과정에서 어려운 샘플에 더 큰 가중치를 부여함으로써, 일반적인 교차 엔트로피 손실이 쉽게 분류되는 샘플에 의해 지배되는 문제를 완화한다. 실험 결과, 제안 모델은 기존의 교차 엔트로피 기반 ResNet 대비 정확도와 F1 점수에서 유의미한 개선을 보였다.
상세 분석
본 연구는 음성 감정 인식(SER) 분야에서 두 가지 핵심 기술을 결합한다. 첫 번째는 잔차 합성곱 신경망(ResNet) 구조이다. ResNet은 깊은 네트워크에서 발생하는 기울기 소실·폭발 문제를 skip connection을 통해 완화시키며, 층이 깊어질수록 더 풍부한 추상화 특성을 학습할 수 있게 한다. 특히, 음성 신호는 시간‑주파수 도메인에서 복합적인 패턴을 보이므로, 다중 레이어가 서로 다른 스케일의 특징을 포착하는 것이 중요하다. 논문에서는 기본적인 ResNet‑34 구조를 변형하여, 입력 채널을 스펙트로그램(1채널)과 MFCC(다채널) 두 종류로 동시에 처리하도록 설계하였다. 이중 입력은 초기 컨볼루션 레이어에서 채널 차원을 합쳐 하나의 텐서로 만든 뒤, 이후 블록에서 동일하게 처리한다. 이렇게 하면 스펙트로그램이 제공하는 전반적인 에너지 분포와 MFCC가 제공하는 음향학적 특성을 동시에 활용할 수 있다.
두 번째 핵심은 포컬 손실(Focal Loss)이다. 원래는 RetinaNet 등 단일 단계 객체 검출기에서 클래스 불균형 문제를 해결하기 위해 제안된 손실 함수로, 손실 식은 (1‑pt)γ·CE(p,t) 형태를 가진다. 여기서 p는 모델이 예측한 정답 클래스에 대한 확률, t는 실제 레이블, γ는 조절 파라미터이며, γ가 클수록 쉽게 분류되는 샘플에 대한 가중치가 급격히 감소한다. SER 데이터셋은 감정 라벨 간 분포가 고르게 되지 않는 경우가 많으며, 특히 ‘중립’이나 ‘행복’ 같은 감정은 다른 감정에 비해 샘플 수가 많아 모델이 이들에 과도하게 최적화되는 경향이 있다. 포컬 손실을 적용하면 이러한 다수 클래스에 대한 손실 기여도가 감소하고, 소수 클래스(예: ‘공포’, ‘놀람’)에 대한 학습이 강화된다. 논문에서는 γ=2와 α‑balancing 파라미터를 감정별 역비율에 맞춰 설정했으며, α‑값을 통해 전체 손실 스케일을 조정하였다.
실험 설계는 두 단계로 이루어진다. 첫 번째는 데이터 전처리 단계로, 원본 wav 파일을 25 ms 프레임, 10 ms 홉으로 나누어 스펙트로그램과 40차원 MFCC를 동시에 추출한다. 이후 로그 스케일 변환과 정규화를 수행해 네트워크 입력으로 사용한다. 두 번째는 모델 학습 단계이며, Adam 옵티마이저(learning rate = 1e‑4, β1=0.9, β2=0.999)를 사용해 50 epoch까지 학습한다. 검증 과정에서는 조기 종료(Early Stopping)를 적용해 과적합을 방지하였다. 평가 지표는 정확도(Accuracy), 정밀도(Precision), 재현율(Recall), F1‑Score를 모두 보고했으며, 특히 소수 클래스에 대한 Macro‑F1을 강조하였다.
결과 분석에서는 기존 교차 엔트로피(CE) 손실을 사용한 ResNet‑34와 비교했을 때, 포컬 손실 적용 모델이 전체 정확도 3.2 %p, Macro‑F1 4.7 %p 상승한 것을 확인했다. 특히 ‘공포’와 ‘놀람’ 클래스에서 재현율이 각각 12 %p, 9 %p 개선되었으며, 이는 포컬 손실이 어려운 샘플에 집중하는 효과를 실증적으로 보여준다. 또한, Ablation Study를 통해 (1) MFCC만 사용, (2) 스펙트로그램만 사용, (3) 두 특징을 결합했을 때의 성능 차이를 확인했으며, 두 특징을 결합했을 때 가장 높은 성능을 기록했다. 이는 서로 보완적인 음성 특성이 감정 구분에 기여한다는 점을 시사한다.
한계점으로는 데이터셋 규모가 제한적이며, 실시간 적용을 위한 경량화 모델 설계가 부족하다는 점을 언급한다. 또한, 포컬 손실의 γ와 α 파라미터 튜닝이 감정 라벨 분포에 따라 민감하게 작용할 수 있어, 자동화된 하이퍼파라미터 탐색 기법이 필요하다고 제안한다. 향후 연구에서는 Transformer 기반의 시퀀스 모델과 결합하거나, 멀티모달(텍스트‑음성) 입력을 확장해 감정 인식 정확도를 더욱 끌어올릴 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기