감정표현 시계열 커널 분류

본 논문은 3차원 얼굴 랜드마크의 움직임을 PCA로 압축한 형태 파라미터 시계열에 동적 시간 왜곡(DTW) 및 전역 정렬(GA) 커널을 적용한 SVM 분류기를 제안한다. CK+ 데이터셋에서 전체 시퀀스에 대해 99% 이상의 AUC를 달성했으며, 표정 시작 5~6프레임(≈200 ms)만으로도 90% 이상의 정확도를 얻었다.

저자: Andras Lorincz, Laszlo Jeni, Zoltan Szabo

감정표현 시계열 커널 분류
본 논문은 얼굴 표정을 시공간적 프로세스로 바라보고, 3차원 랜드마크의 움직임을 기반으로 한 시계열 데이터를 효과적으로 분류하기 위한 커널 기반 방법을 제안한다. 먼저 얼굴 랜드마크 추출 단계에서 3D CLM(Constrained Local Model) 알고리즘을 사용한다. CLM은 사전 학습된 3D 형태 모델(PDM, Point Distribution Model)을 이미지에 맞추어 각 랜드마크의 3차원 좌표를 얻는다. 이때 얻어지는 좌표는 전역 변환(스케일, 회전, 이동)과 비강체 변형(표정에 따른 미세 움직임)으로 분리될 수 있다. 전역 변환은 표정 인식에 크게 기여하지 않으므로 제거하고, 비강체 변형을 설명하는 파라미터 q를 PCA를 통해 차원 축소한다. 결과적으로 각 프레임은 고정 차원의 shape parameter 벡터로 표현되며, 연속된 프레임은 다변량 시계열을 형성한다. 시계열 간 유사도 측정을 위해 두 종류의 커널을 설계한다. 첫 번째는 전통적인 동적 시간 왜곡(DTW) 기반 커널이다. DTW는 두 시계열을 시간 축에서 비선형적으로 정렬해 최소 정렬 비용 D_TW(x,y)를 구한다. 그러나 D_TW는 거리의 삼각 부등식을 만족하지 않아 바로 커널로 사용할 수 없으므로, 거리 대체(distance substitution) 기법을 적용해 가장 가까운 양의 반정정 행렬 Ď_TW를 추정한다. 이후 RBF 형태 k_DTW(x,y)=exp(−Ď_TW(x,y)/t) 로 변환한다. 여기서 t는 스케일 파라미터이며, 로그 스케일 탐색을 통해 최적값을 찾는다. 두 번째는 Global Alignment(GA) 커널이다. GA는 모든 가능한 정렬 경로 π∈A에 대해 각 정렬 단계의 로컬 발산 φ(x_i,y_j) 를 지수함수 e^{−φ} 로 가중치화해 곱을 구하고, 이를 전체 정렬에 대해 합산한다. 수식으로는 k_GA(x,y)=∑_{π∈A}∏_{i}e^{−φ(x_{π1(i)},y_{π2(i)})} 로 정의된다. φ는 일반적으로 ½σ²‖x−y‖² 형태의 유클리드 거리 기반 함수이며, σ는 부드러움을 조절한다. GA 커널은 최소 비용만을 고려하는 DTW와 달리 정렬 전체 공간을 활용해 더 풍부하고 매끄러운 유사도 측정을 제공한다. 이 두 커널을 이용해 Gram 행렬을 만든 뒤, 표준 서포트 벡터 머신(SVM)으로 다중 클래스(One‑vs‑All) 분류기를 학습한다. SVM은 소프트 마진 파라미터 C와 커널 파라미터(t 또는 σ)를 교차 검증을 통해 최적화한다. 실험에서는 CK+(Cohn‑Kanade Extended) 데이터셋을 사용했으며, 123명의 피험자와 593개의 표정 시퀀스를 대상으로 했다. 각 시퀀스는 중립 상태에서 표정 피크까지의 프레임을 포함하고, 3D 랜드마크와 shape parameters가 제공된다. 성능 평가는 ROC 곡선 아래 면적(AUC)로 측정했다. 전체 시퀀스를 사용했을 때 DTW와 GA 커널 모두 0.99에 가까운 AUC를 기록했으며, 특히 Disgust, Happiness, Surprise와 같이 큰 비강체 변형을 보이는 표정에서 거의 100%에 달했다. 이는 기존의 spatio‑temporal ICA, boosted dynamic features, NMF 기반 방법들을 능가한다는 것을 표(Table 1)로 제시한다. 조기 인식 실험에서는 시퀀스 길이를 2~16프레임으로 제한하고, 각 길이에 대한 AUC를 측정했다. 결과는 5~6프레임(≈200 ms)에서 90% 이상의 AUC를 달성했으며, 3~4프레임에서는 80% 수준에 머물렀다(Figure 4). 이는 실제 인간‑컴퓨터 인터랙션에서 실시간 감정 인식이 가능함을 의미한다. 논문의 주요 기여는 다음과 같다. (1) 얼굴 랜드마크 시계열에 DTW·GA 커널을 적용해 높은 정확도의 감정 분류를 달성하였다. (2) 짧은 초기 프레임만으로도 높은 인식률을 보여, 실시간 시스템에 적합한 조기 감정 인식 방법을 제시하였다. (3) 커널 기반 접근법이 딥러닝 기반 대규모 데이터 요구 없이도 소규모 데이터셋에서 강력한 성능을 보일 수 있음을 입증하였다. 향후 연구 방향으로는 비강체 파라미터 외에 텍스처·광도 정보를 결합하거나, 커널 파라미터를 학습 가능한 형태(예: 다중 커널 학습)로 확장해 보다 일반화된 감정 인식 프레임워크를 구축하는 것이 제안된다. 또한, 실시간 구현을 위한 효율적인 커널 근사화 및 GPU 가속 기법을 적용하면 실제 HCI 시스템에 바로 적용할 수 있을 것으로 기대된다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기