배치형 그룹 상대 정책 최적화 기반 무지도 감정 인식
초록
본 논문은 배치 단위로 샘플을 그룹화하고 평균 보상을 기준으로 어드밴티지를 계산하는 B‑GRPO 알고리즘을 제안한다. 자체 신뢰도 기반 보상(self‑reward)과 외부 교사 모델 기반 보상(teacher‑reward)을 활용해 라벨이 없는 음성 데이터를 선택적으로 학습에 이용함으로써, 기존 비지도 학습 방법인 DINO 대비 평균 10.3%·베이스라인 대비 19.8%의 성능 향상을 달성하였다.
상세 분석
B‑GRPO는 기존 GRPO가 다중 응답을 그룹으로 묶어 상대적 어드밴티지를 계산하던 방식을, 음성 감정 인식과 같이 하나의 입력에 대해 단일 예측만 존재하는 상황에 맞게 변형하였다. 핵심 아이디어는 배치 내 샘플들을 하나의 그룹으로 보고, 각 샘플의 보상 rᵢ를 배치 평균 \bar r와 표준오차 \hat r 로 정규화한 뒤, 양수 어드밴티지 \hat A_i 만을 정책 업데이트에 사용한다는 점이다. 이렇게 하면 낮은 신뢰도의 샘플이 음성 감정 모델에 미치는 부정적 영향을 최소화하면서, 높은 확신을 가진 샘플을 강조할 수 있다.
보상 함수는 두 가지 형태로 설계되었다. 첫 번째인 self‑reward는 현재 정책 모델이 출력한 감정 카테고리 확률 중 최대값 maxₙ p(n|q_i) 를 직접 사용하거나, 일정 임계값 δ 이상을 초과하면 상수 C 를 부여한다. 이는 라벨이 없더라도 모델 자체의 확신도를 신뢰할 수 있게 만든다. 두 번째인 teacher‑reward는 사전에 학습된 외부 교사 모델(Emotion2vec‑plus‑large, Emotion2vec‑base, Whisper‑large‑v3 등)의 예측과 정책 모델의 예측을 비교해 일치 여부 혹은 KL‑다이버전스가 일정 기준 θ 이하인 경우에 보상을 부여한다. 실험 결과, self‑reward가 전반적으로 더 높은 F1 점수를 제공했으며, teacher‑reward는 특정 데이터셋에서 보조적인 역할에 그쳤다.
알고리즘 수식은 PPO의 클리핑 손실에 어드밴티지 \hat A_i 를 곱한 형태와, 정책과 레퍼런스(teacher) 분포 사이의 KL‑다이버전스 정규화 항을 포함한다. 배치 크기 B 는 32~64가 최적으로 확인되었으며, 이는 그룹 크기가 충분히 커야 평균 보상이 안정적인 기준이 되기 때문이다.
실험은 IEMOCAP, CASIA, CAFE, MELD, M3ED 등 다섯 개의 다국어 코퍼스를 사용했으며, 각 코퍼스는 6가지 감정 클래스로 매핑되었다. 베이스라인은 절반 라벨 데이터를 사용해 100 epoch 사전 학습 후, 나머지 절반을 라벨 없이 B‑GRPO 혹은 DINO로 추가 학습시켰다. B‑GRPO는 모든 코퍼스에서 F1 점수가 0.9%~25.4% 상승했으며, 특히 CASIA에서 48%라는 큰 폭의 개선을 보였다. 또한, 동일 에폭 수(200 epoch)에서 라벨 전체를 사용한 완전 지도 학습과 비교했을 때, B‑GRPO는 라벨이 없는 데이터만으로도 비슷하거나 약간 높은 성능을 달성했다.
정책 모델의 특성 추출기로 SenseVoice, Emotion2vec, Whisper 등을 사용했을 때의 차이도 분석했다. Whisper‑large‑v3 기반 정책이 B‑GRPO 적용 시 가장 큰 절대 향상을 보였으며, 이는 강력한 사전 학습 음성 표현이 어드밴티지 계산에 유리함을 시사한다. 외부 코퍼스를 활용한 데이터 선택 실험에서는 동일 코퍼스 내 샘플 선택이 더 효과적이었지만, 서로 다른 언어·도메인의 데이터도 일정 수준의 보강 효과를 제공한다는 점을 확인했다.
전체적으로 B‑GRPO는 “샘플 선택을 장기적인 정책 결정으로 전환”하고, 배치 기반 상대 보상 정규화를 통해 무지도 환경에서도 신뢰도 높은 샘플을 자동으로 추출한다는 혁신적인 접근을 제시한다. 이는 라벨 비용이 높은 음성 감정 인식 분야뿐 아니라, 다른 라벨이 희귀한 시계열·멀티모달 분류 문제에도 확장 가능성을 가진다.
댓글 및 학술 토론
Loading comments...
의견 남기기