감정 인식의 모호성 활용을 위한 증거 기반 에이전트 ADEPT
초록
ADEPT는 음성 대형 언어 모델을 에이전트화하여 다중 턴 질문-응답 흐름으로 감정 후보를 생성하고, 의미·음향 탐색 도구를 통해 증거를 수집·검증한다. 소수 의견을 ‘소감정’으로 활용해 다중 감정을 학습하고, 그룹 상대 정책 최적화와 증거 신뢰 게이트를 결합해 증거 기반 추론을 강화한다. 실험 결과 기본 정확도는 유지하면서 소감정 회복률이 크게 향상되었으며, 설명도 음향·텍스트 증거에 기반한다.
상세 분석
ADEPT는 기존 SER 시스템이 갖는 ‘신호‑의미 격차’를 근본적으로 해소하려는 시도로, 두 가지 핵심 축을 제시한다. 첫째, SLLM을 단순 분류기가 아니라 ‘멀티턴 에이전트’로 전환한다. 에이전트는 입력 음성·전사로부터 고리콜(High‑Recall) 후보 집합을 생성하고, 후보 간 모호성을 정량화한다. 이때 후보는 단일 라벨이 아니라 다중 라벨(주요·소감정) 형태로 유지되며, 후보 순위는 초기 확률과 어노테이터 투표 분포를 결합해 산출한다. 둘째, 증거 탐색 도구킷(Evidence Probing Toolkit)을 체계화한다. 의미 탐색 도구는 텍스트 스팬을 추출해 감정 관련 어휘·구문을 검증하고, 음향 탐색 도구는 피치, 에너지, 포즈 등 저수준 파라미터를 구간별로 측정한다. 또한 구조적 사전 도구가 예산(툴 호출 횟수)과 후보 우선순위를 관리하고, 리파인먼트 도구가 충돌 증거를 재청취·재검증한다.
증거 수집 과정은 ‘예산‑조건부 조건부 실행 루프’로 구현돼, 에이전트는 현재 후보 집합의 불확실성(예: 후보 간 확률 차이, 어노테이터 투표 분산)과 증거 비용을 동시에 고려해 최적의 툴 호출을 선택한다. 이때 그룹 상대 정책 최적화(GRPO)가 정책 네트워크와 가치 네트워크를 공동 학습시켜, 툴 사용이 예측 정확도에 미치는 기여도를 정량화한다. 증거 신뢰 게이트(Evidence Trust Gate)는 툴 호출 후 얻은 관측값이 사전 정의된 신뢰 임계값을 초과할 때만 최종 판단에 반영하도록 하여, 무의미한 탐색을 억제한다.
ADEPT는 ‘컨센서스 패러독스’를 의식적으로 회피한다. 기존 다수결 라벨링이 소수 의견을 노이즈로 전락시키는 반면, ADEPT는 소수 투표를 ‘소감정’ 라벨로 보존하고, 이를 별도 손실 함수(소감정 복구 손실)로 학습한다. 따라서 모델은 주요 감정과 함께 동시 존재하는 미세 감정을 인식하고, 이들 간의 의미적/음향적 의존성을 학습한다.
실험에서는 MSP‑Podcast V2.0 데이터셋을 사용해, 주요 감정 정확도는 기존 SLLM 기반 베이스라인 대비 소폭 상승(≈1‑2%)을 보였으며, 소감정 재현율은 15‑30% 포인트 상승했다. 또한, 모델이 제공한 설명은 ‘음성 구간(0.45‑0.78 s)에서 피치 상승 + “놀라다” 라는 텍스트 스팬’ 등 구체적인 증거를 제시해, 인간 평가자에게 높은 신뢰도를 얻었다. Ablation 연구에서는 GRPO와 증거 신뢰 게이트를 제거하면 툴 호출이 과다해지고, 소감정 회복 성능이 급격히 저하되는 것을 확인했다.
전반적으로 ADEPT는 감정 인식을 ‘증거 기반 추론’ 문제로 재정의하고, 멀티턴 에이전트와 강화학습 기반 툴 관리 메커니즘을 결합함으로써, 정확도와 해석 가능성을 동시에 향상시킨 혁신적 프레임워크라 할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기