감정인식에 강화학습을 입힌 오픈보카블리 멀티모달 모델
초록
본 논문은 감정 휠 기반 메트릭을 보상 함수로 활용하여 정책 최적화를 수행하는 강화학습 프레임워크 AffectGPT‑R1을 제안한다. 토큰‑레벨 손실과 감정 휠 메트릭 간의 불일치를 해소하고, 사고 과정과 정답 출력을 동시에 규제하는 보조 보상을 도입함으로써 오픈보카블리 멀티모달 감정 인식(OV‑MER) 성능을 크게 향상시킨다. 또한 길이 페널티를 적용해 보상 해킹을 방지하고, MER‑UniBench에서 최첨단 결과를 달성하였다.
상세 분석
AffectGPT‑R1은 기존 AffectGPT가 토큰‑레벨 교차 엔트로피 손실에만 의존해 감정 휠(EW) 기반 평가 지표와 목표가 어긋나는 문제를 근본적으로 해결한다. 논문은 EW 메트릭을 직접 최적화할 수 없으므로, 이를 보상 함수로 정의하고 강화학습을 통해 정책을 업데이트한다는 아이디어를 제시한다. 구체적으로, 비판자 없이 그룹 상대 정책 최적화(GRPO)를 채택해 정책 업데이트 시 그룹 내 샘플들의 보상을 평균·표준편차로 정규화하고, KL 발산 페널티를 제거해 학습 효율을 높인다.
보상 설계는 다섯 가지 요소로 구성된다. 첫째, 출력 형식(think/answer 태그 포함)을 만족하는지 여부를 판단하는 포맷 보상이다. 둘째, 기존 OV‑MER 공식 메트릭(예: EW 기반 유사도)을 그대로 사용한 정확도 보상으로, 모델이 실제 감정 의미와 일치하도록 유도한다. 셋째, 사고 과정과 정답 사이의 의미적 일관성을 측정하는 사고‑정답 보상이다. 넷째, 다중 모달 입력(시각·청각·텍스트) 각각에 대한 별도 보상을 부여해 각 모달의 기여도를 균형 있게 학습한다. 마지막으로, 생성 텍스트 길이에 비례해 보상을 감소시키는 길이 페널티를 도입해 불필요하게 긴 감정 열거를 억제한다. 이러한 보상들은 가중치 조합을 통해 실험적으로 최적화되었으며, 단일 보상보다 복합 보상이 성능 향상에 크게 기여함을 실증한다.
또한 논문은 사고 과정(think 단계)의 존재가 OV‑MER에 필수적인지 실험적으로 검증한다. 사고 단계가 없을 경우 모델은 감정 라벨을 직접 출력하지만, 사고 단계가 포함되면 감정의 근거와 연관성을 명시적으로 학습하게 되어 전반적인 정확도와 해석 가능성이 향상된다.
데이터 측면에서는 두 단계 학습을 적용한다. 첫 번째 단계인 콜드 스타트에서는 대규모 저품질 코스 데이터셋을 사용해 기본 감정 이해와 포맷 정렬 능력을 확보한다. 두 번째 단계인 강화학습에서는 고품질 세밀 라벨이 포함된 데이터셋을 사용해 보상을 계산하고 정책을 미세 조정한다. 실험 결과, 콜드 스타트 데이터 양이 충분히 클수록 강화학습 단계에서의 수렴 속도와 최종 성능이 크게 개선된다.
마지막으로, MER‑UniBench이라는 통합 벤치마크에서 AffectGPT‑R1이 기존 최첨단 모델들을 앞서는 결과를 보이며, 오픈보카블리 감정 인식 분야에서 강화학습 기반 접근법의 가능성을 입증한다. 코드와 모델 가중치는 부록에 제공되며, 향후 연구 재현성을 위해 공개 예정이다.
댓글 및 학술 토론
Loading comments...
의견 남기기