테스트 시점 적응을 위한 EM 기반 오디오‑언어 모델 감정 인식 강화

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 음성 감정 인식에 사용되는 오디오‑언어 모델(예: CLAP)의 테스트 시점 분포 변화를 EM 절차로 추정하고, 클래스별 가우시안 통계량을 순차적으로 업데이트함으로써 모델 가중치를 전혀 수정하지 않고도 정확도를 크게 향상시키는 Emo‑TTA 프레임워크를 제안한다.

상세 분석

Emo‑TTA는 기존 테스트‑시간 적응(TTA) 방법이 갖는 “그라디언트 기반 업데이트”, “프롬프트 튜닝”, “배치 의존성”이라는 세 가지 주요 제약을 동시에 해소한다. 먼저, 저자는 오디오‑언어 모델(ALM)인 CLAP이 제공하는 텍스트 프롬프트를 각 감정 클래스의 초기 평균 μᵢ 로 사용하고, 공분산 Σ는 단위 행렬로 초기화한다. 이렇게 정의된 클래스별 가우시안 p(x|y=i)∼N(μᵢ,Σ)와 사전 πᵢ 를 바탕으로 베이즈 규칙에 따라 예측을 수행한다.

테스트 샘플이 순차적으로 들어올 때마다 EM 알고리즘을 적용한다. E‑step에서는 현재 파라미터를 이용해 소프트 할당 γₜ,ᵢ ∝ πᵢ·𝒩(xₜ|μᵢ,Σ)를 계산하고, M‑step에서는 γₜ,ᵢ 와 입력 임베딩 xₜ 를 사용해 μᵢ, Σ, πᵢ 를 온라인 방식으로 업데이트한다. 여기서 핵심은 “샘플당 한 번씩만” 연산이 이루어지며, 과거 데이터를 저장하거나 배치를 구성할 필요가 없다는 점이다.

또한, CLAP이 제공하는 제로‑샷 확률을 엔트로피 기반 가중치 w(H)=e^{−βH} 로 변환해 불확실성이 큰 샘플의 영향을 감소시킨다. 이는 초기 단계에서 모델이 잡음에 의해 크게 흔들리는 것을 방지하고, 점진적인 통계 업데이트가 보다 안정적으로 진행되도록 돕는다. 최종 예측은 업데이트된 가우시안 파라미터로부터 얻은 로그우도와 CLAP의 원본 코사인 유사도 로그를 선형 결합(α·wᵢ·F + bᵢ)함으로써, 두 정보원을 보완한다.

실험에서는 IEMOCAP, MELD, RAVDESS, TESS, SAVEE, CREMA‑D 등 6개의 OOD(Out‑of‑Domain) SER 데이터셋을 사용했으며, CLAP‑PANN‑14와 CLAP‑HTSAT 두 가지 백본에 대해 비교했다. Emo‑TTA는 평균 정확도 38.02% (PANN)와 40.47% (HTSAT)를 기록했으며, 이는 기존 프롬프트 학습 기반 방법, 그라디언트 기반 TTA, 그리고 Zero‑Shot 기반 훈련‑프리 방법들을 모두 앞선 결과다. 특히 12개의 백본‑데이터셋 조합 중 10곳에서 최고 성능을 달성했다.

Ablation 연구에서는 (1) 평균 μᵢ 를 고정했을 때 성능 급락, (2) 공분산 Σ 업데이트를 생략했을 때 약 3~5% 감소, (3) 엔트로피 가중치 없이 ALM 프라이어를 사용했을 때도 유사한 손실이 발생함을 확인했다. 이는 클래스별 통계의 동적 추정과 불확실성 보정이 Emo‑TTA 성공의 핵심 요소임을 증명한다.

이러한 설계는 (i) 테스트 시점에 실시간으로 분포를 추정한다는 “분포 추정” 요구, (ii) 모델 파라미터를 전혀 변경하지 않는 “경량 적응”, (iii) 별도 학습 없이 바로 적용 가능한 “훈련‑프리 추론”이라는 세 가지 목표를 모두 만족한다. 따라서 실제 서비스 환경에서 프라이버시 제약이나 연산 제한이 있는 경우에도 손쉽게 적용할 수 있다.

테스트 시점 적응을 위한 EM 기반 오디오‑언어 모델 감정 인식 강화

초록

상세 분석

댓글 및 학술 토론

의견 남기기