감정 속성 예측을 위한 라더 네트워크: 비지도 보조 작업으로 성능 향상

본 연구는 인간-컴퓨터 상호작용(HCI) 분야에서 감정을 연속적인 속성(각성, 가치, 지배)으로 표현하는 방법의 필요성을 강조한다. 기존에는 각 속성을 독립적인 모델로 학습하거나, 다중 과제 학습(MTL)으로 속성 간 상관관계를 활용하는 접근이 주를 이루었다. 그러나 이러한 방법들은 여전히 과적합 위험이 크고, 라벨링 비용이 높은 감정 데이터에 대한 일반화가 제한적이다. 이를 해결하고자 저자는 비지도 보조 작업을 포함한 라더 네트워크(Ladder Network)를 도입한다. 라더 네트워크는 인코더‑디코더 구조에 스킵 연결을 삽입해, 각 은닉 층의 깨끗한 표현을 직접 복원하도록 설계된다. 인코더는 가우시안 노이즈를 각 층에 추가한 뒤, 최종 은닉 표현을 감정 속성 회귀에 사용한다. 디코더는 상위 층의 정보를 포함한 ‘디노이징 함수 g(·)’를 통해 노이즈가 섞인 은닉 표현을 복원한다. 복원 손실은 각 층마다 가중치 λl을 부여해 전체 손실에 합산되며, 지도 손실(Cc)과 함께 최적화된다. 이러한 구조는 두 가지 장점을 제공한다. 첫째, 모든 층에서 복원 작업이 이루어지므로 네트워크는 입력 노이즈에 강인한 특징을 학습한다. 둘째, 상위 층은 복원에 필요한 저수준 정보를 디코더에 넘겨줄 필요가 없어, 감정 속성 예측에 특화된 고수준 추상 특징을 자유롭게 학습할 수 있다. 감정 속성 예측을 위한 지도 손실은 평균 제곱 오차(MSE)를 기반으로 하며, 라더 네트워크에 MTL 손실을 결합한 라더‑MTL 모델도 제안한다. 여기서는 세 속성 각각에 대한 회귀 손실을 α, β 파라미터로 가중합한 CMTL을 사용한다. 이렇게 하면 비지도 복원 작업과 다중 과제 학습이 동시에 이루어져, 속성 간 상관관계를 활용하면서도 은닉 표현을 정규화한다. 실험은 MSP‑Podcast 데이터셋(버전 1.1)과 6,373 차원의 고수준 음성 특징을 사용한다. 데이터는 화자 독립 방식으로 학습(12,835문장), 검증(2,614문장), 테스트(7,181문장) 셋으로 나뉘었으며, 각 속성은 1~7의 Likert 스케일로 평균값을 라벨링했다. 베이스라인으로는 (1) 단일 과제 DNN(STL), (2) 비지도 자동인코더 기반 사전학습 후 지도 학습, (3) 다중 과제 학습(MTL) 세 가지를 설정하였다. 모든 모델은 256개의 은닉 유닛을 두 층에 배치하고, 동일한 학습률·배치 크기·조기 종료 기준을 적용했다. 평가 지표는 Concordance Correlation Coefficient(CCC)이며, 결과는 다음과 같다. 자동인코더 베이스라인은 낮은 성능을 보였고, STL은 각성(0.778), 가치(0.443), 지배(0.722)에서 중간 수준을 기록했다. MTL은 약간 향상된 각성(0.791)과 가치(0.469)를 보였지만, 라더‑STL은 각성(0.801), 가치(0.443), 지배(0.742)에서 STL을 능가했다. 특히 라더‑MTL은 각성(0.803), 가치(0.458), 지배(0.746)에서 최고 CCC를 달성했으며, 통계적으로 유의미한 향상(※)을 나타냈다. 이는 비지도 복원 작업이 은닉 표현을 견고하게 만들고, MTL이 속성 간 상관관계를 효과적으로 활용함을 의미한다. 논문은 또한 라더 네트워크가 라벨이 부족한 상황에서도 비지도 손실이 지도 손실을 보완할 수 있음을 시사한다. 현재 실험은 완전 지도 설정에서 수행했지만, 라더 네트워크는 반지도(semi‑supervised) 학습에 특히 강점을 보이는 구조이므로, 향후 라벨이 극히 제한된 도메인이나 멀티모달(음성+텍스트) 입력에 대한 확장이 기대된다. 결론적으로, 라더 네트워크는 감정 속성 예측이라는 회귀 문제에 비지도 보조 작업을 효과적으로 통합함으로써, 기존 STL·MTL 대비 일관된 성능 향상을 달성했다. 이는 감정 인식 시스템의 일반화 능력을 높이고, 라벨링 비용이 높은 감정 데이터에 대한 실용적 해결책을 제공한다.

감정 속성 예측을 위한 라더 네트워크: 비지도 보조 작업으로 성능 향상

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기