헝켈 행렬을 활용한 동적 얼굴 감정 및 통증 인식

초록

본 논문은 얼굴 이미지 기술자(FID) 시퀀스를 선형 시불변(LTI) 시스템의 출력으로 모델링하고, 그 동적 특성을 헝켈 행렬로 표현한다. 다양한 동적 표현 방식을 제안하고, 이를 감정 인식과 통증 감지 두 분야에 적용해 기존 최첨단 방법과 경쟁력 있는 정확도를 달성하였다.

상세 분석

이 연구는 얼굴 표정 시퀀스의 시간적 변화를 효과적으로 포착하기 위해 LTI 시스템 가정을 도입한 점이 가장 큰 혁신이다. 기존의 정적 얼굴 특징 추출 방식은 각 프레임을 독립적으로 처리해 시간적 연속성을 무시하는 반면, 저자는 연속된 FID를 시스템의 출력으로 보고 시스템의 상태 전이를 추정한다. 이를 위해 헝켈 행렬을 사용했는데, 헝켈 행렬은 관측된 시계열 데이터의 차원 축소와 동시에 시스템 차수(order)를 추정할 수 있는 강력한 도구이다. 논문에서는 두 가지 주요 전략을 제시한다. 첫째, 전체 시퀀스에 대해 하나의 큰 헝켈 행렬을 구성해 전체 동적을 한 번에 캡처한다. 둘째, 고정된 윈도우 크기로 시퀀스를 슬라이딩하며 여러 작은 헝켈 행렬을 만들고, 이들을 평균하거나 결합해 보다 지역적인 변화를 반영한다. 이러한 전략은 시퀀스 길이와 노이즈 수준에 따라 유연하게 선택 가능하다.

특징 추출 단계에서는 기존의 얼굴 이미지 기술자(예: LBP, HOG, CNN 기반 임베딩)를 그대로 사용하면서, 이들의 시계열을 헝켈 행렬로 변환한다. 변환 후에는 행렬을 벡터화하거나 핵심값(특이값)만을 추출해 차원을 크게 줄인다. 이렇게 얻은 동적 특징은 SVM, KNN, Random Forest 등 전통적인 분류기에 바로 입력될 수 있다. 실험에서는 두 개의 공개 데이터셋—Emotion Recognition in the Wild (RAF-DB)와 UNBC-McMaster Pain Archive—을 사용했으며, 각각 감정 7가지와 통증 레벨(0~~5)을 분류했다. 결과는 헝켈 기반 동적 표현이 정적 FID만을 사용한 경우 대비 평균 3~~5%p의 정확도 향상을 보였으며, 최신 딥러닝 기반 시계열 모델(LSTM, Temporal ConvNet)과도 비슷하거나 약간 앞서는 성능을 기록했다.

또한, 저자는 헝켈 행렬의 수학적 특성을 활용해 두 시퀀스 간 거리를 정의하는 방법도 제안한다. 구체적으로 Frobenius norm 기반 거리와 정규화된 서브스페이스 각도(Principal Angle)를 결합해 시퀀스 유사성을 측정한다. 이 거리 측정은 k-NN 분류기에 직접 적용될 수 있어, 복잡한 학습 단계 없이도 강건한 분류가 가능하다.

한계점으로는 LTI 가정이 실제 인간 표정의 비선형성을 완전히 설명하지 못한다는 점과, 헝켈 행렬 크기가 시퀀스 길이에 따라 급격히 커져 메모리 부담이 발생할 수 있다는 점을 들 수 있다. 이를 보완하기 위해 저자는 차원 축소 기법(PCA, Randomized SVD)과 행렬 샘플링을 적용했으며, 향후 연구에서는 비선형 동적 모델(예: 커널 헝켈, 딥 오토인코더)과의 결합을 제안한다.

전반적으로 이 논문은 전통적인 신호 처리 이론을 컴퓨터 비전 분야에 성공적으로 접목시킨 사례로, 복잡한 딥러닝 모델 없이도 시간적 정보를 효과적으로 활용할 수 있음을 증명한다. 특히 의료 현장에서 실시간 통증 모니터링과 같은 제한된 연산 자원을 가진 환경에 적합한 경량 솔루션으로 기대된다.