인 더 와일드 감정 예측을 위한 대규모 Aff‑Wild 데이터베이스와 AffWildNet
본 논문은 유튜브에서 수집한 30시간 이상, 298개의 비디오로 구성된 대규모 ‘Aff‑Wild’ 데이터베이스를 소개하고, 이 데이터를 기반으로 연속적인 정서 차원인 밸런스와 각성을 예측하는 CNN‑RNN 구조인 ‘AffWildNet’을 설계·학습한다. CCC 손실을 활용한 회귀 학습, 얼굴 이미지와 랜드마크를 동시에 입력으로 사용한 멀티모달 설계, 그리고 학습된 특징을 다른 데이터셋(RECOLA, AFEW‑VA, EmotiW)으로 전이하여 차…
저자: Dimitrios Kollias, Panagiotis Tzirakis, Mihalis A. Nicolaou
본 논문은 인간의 감정을 시각적 신호만으로 자동 인식하는 기술의 필요성을 강조하며, 특히 실생활과 같은 비제어 환경에서의 정서 인식을 목표로 한다. 기존 정서 데이터베이스는 실험실에서 촬영된 정형화된 영상에 국한돼 있어, 머리 자세, 조명, 가림 현상 등 다양한 변수를 충분히 반영하지 못한다는 한계가 있었다. 이를 극복하고자 연구팀은 ‘Aff‑Wild’라는 새로운 벤치마크를 구축하였다.
Aff‑Wild는 유튜브에서 ‘reaction’이라는 키워드로 검색된 298개의 비디오를 수집했으며, 총 30시간 이상, 1,224,100 프레임을 포함한다. 피험자는 200명에 달하고, 연령·성별·인종·문화적 배경이 다양하게 분포한다. 각 비디오는 8명의 라벨러가 연속적인 밸런스와 각성 값을 −10~+10 구간의 실수형으로 주석했으며, 주석 품질을 확보하기 위해 인터-라벨러 일관성 검증(CCC 평균 0.85 이상)을 수행했다. 데이터는 프레임 단위로 얼굴 영역을 정규화하고, 68개의 2‑D 랜드마크를 추출해 메타데이터와 함께 저장하였다.
Aff‑Wild Challenge는 CVPR 2017과 연계해 개최되었으며, 참가 팀들은 제공된 베이스라인(단순 CNN+MSE) 외에 다양한 딥러닝 모델을 제출했다. 대부분의 팀이 성능 향상을 보였지만, 최고 성적조차 CCC 0.30 수준에 머물렀다. 이는 인‑더‑와일드 환경에서 정서 회귀가 여전히 어려운 과제임을 시사한다.
이에 연구팀은 새로운 엔드‑투‑엔드 모델 ‘AffWildNet’를 설계했다. 모델은 크게 두 부분으로 구성된다. 첫 번째는 이미지 스트림으로, VGG‑Face 혹은 ResNet‑50 기반의 CNN을 사용해 각 프레임에서 고차원 시각 특징을 추출한다. 두 번째는 형태 스트림으로, 68개의 랜드마크 좌표를 2개의 완전 연결층에 통과시켜 형태 정보를 압축한다. 두 스트림의 출력은 차원 축소 후 결합(concatenation)되어 Bi‑LSTM에 입력된다. Bi‑LSTM은 앞·뒤 시간 흐름을 모두 고려해 시퀀스 전체의 동적 변화를 모델링한다. 최종 출력은 두 개의 회귀 노드(밸런스, 각성)이며, 손실 함수는 Concordance Correlation Coefficient(CCC)를 직접 최적화하도록 설계된 ‘1‑CCC’ 형태이다. CCC는 예측값과 실제값 사이의 일치도와 평균 편차를 동시에 반영하므로, 정서 회귀에 적합한 평가 지표이자 학습 목표가 된다.
학습 단계에서는 프레임 레벨의 불균형을 완화하기 위해 오버샘플링 및 가중치 조정을 적용했으며, 데이터 증강(수평 뒤집기, 색상 변형, 랜드마크 노이즈)으로 일반화 성능을 높였다. 최적화는 Adam 옵티마이저와 학습률 스케줄링을 사용했으며, 조기 종료(Early Stopping) 기준은 검증 세트의 CCC 평균을 기준으로 설정했다.
AffWildNet은 Aff‑Wild Challenge 테스트 셋에서 밸런스 CCC 0.46, 각성 CCC 0.44를 기록해 기존 베이스라인 대비 약 30% 이상의 개선을 달성했다. 또한, 동일 아키텍처를 RECOLA와 AFEW‑VA에 파인튜닝했을 때도 각각 CCC 0.60, 0.58을 달성했으며, 이는 해당 데이터셋에서 기존 최고 성능(CCC 0.52 수준)을 크게 앞선 결과이다. EmotiW 2017의 7가지 기본 감정 분류에서도, Aff‑Wild에서 사전 학습된 특징을 이용한 전이 학습이 정확도를 3.2% 포인트 상승시켰다.
논문의 주요 기여는 다음과 같다. 첫째, 대규모 인‑더‑와일드 정서 데이터베이스를 최초로 공개함으로써 연구 커뮤니티에 풍부한 학습 자원을 제공한다. 둘째, 이미지와 랜드마크를 동시에 활용하는 멀티모달 CNN‑RNN 구조와 CCC 기반 회귀 손실을 결합해 시각적·형태적 정보를 효율적으로 통합한다. 셋째, 학습된 특징이 다른 정서 데이터셋 및 범주 감정 인식 과제로 전이될 때도 강력한 사전 지식(prior)으로 작용함을 실험적으로 입증한다.
결론적으로, Aff‑Wild와 AffWildNet은 실시간 인간‑컴퓨터 상호작용, 감정 기반 로봇 제어, 그리고 멀티모달 정서 분석 등 다양한 응용 분야에서 ‘현실 세계’의 복잡성을 다루는 기반 기술로 활용될 수 있다. 향후 연구에서는 음성·생체 신호와 같은 다중 모달리티를 추가하고, 더 큰 규모의 라벨링(예: 1,000시간 이상)과 실시간 추론 최적화를 통해 상용 시스템으로의 전이를 목표로 제시한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기