얼굴표정 예측 신경망 해석과 전이학습 전략

본 논문은 얼굴 사진으로부터 인간이 인지하는 심리적 속성(매력, 행복, 자신감, 지능)을 예측하는 딥러닝 모델의 내부 작동 원리를 해석하고, 전이학습 전략을 최적화하는 방법을 제시한다. 데이터셋은 10k US Faces 중 2222장의 이미지에 인간 평가 점수가 라벨링된 부분을 사용했으며, 추가 실험을 위해 KDEF(감정 표현) 데이터도 활용하였다. 첫 단계에서는 기존에 연령과 성별을 분류하도록 학습된 두 개의 ConvNet을 베이스 모델로 채택한다. 이러한 사전학습 모델은 수백만 파라미터를 이미 학습했기 때문에, 작은 규모의 심리적 속성 데이터에 직접 학습시키면 과적합 위험이 크다. 따라서 전이학습을 적용한다. 전이학습은 두 가지 방식으로 진행되는데, (i) 전결합(Dense) 층만 재학습하여 고차원 피처를 그대로 활용하고, (ii) 전체 네트워크를 재학습하여 저수준 필터까지 미세 조정한다. 각각의 베이스 모델에 대해 위 두 방식을 적용해 총 16개의 모델을 구축하였다. 성능 평가는 평균 절대 오차(MAE)로 수행했으며, 연령 베이스 모델이 전반적으로 낮은 MAE를 보였다. 특히 전체 재학습(full)보다 Dense‑Only 재학습이 매력 예측에서는 큰 차이를 보이지 않아, 고차원 피처만으로도 충분히 좋은 성능을 얻을 수 있음을 시사한다. 그러나 연령 모델이 다중 클래스 구조를 가지고 있어, 세부적인 얼굴 특징(주름, 눈꺼풀 등)을 더 잘 포착한다는 점이 관찰되었다. 핵심 기여는 LRP(Layer‑wise Relevance Propagation) 기법을 이용해 각 모델의 예측 근거를 시각화한 것이다. LRP는 최종 예측 점수를 역전파하여 입력 픽셀마다 ‘관련성’ 값을 할당한다. 논문에서는 α‑β 규칙(α=2, β=−1)을 적용해 양·음 기여를 구분하고, 이를 히트맵 형태로 시각화하였다. 연령 모델의 히트맵은 눈가 주름, 귀밑 피부, 눈꺼풀 처짐 등 세밀한 노화 신호에 집중하고, 성별 모델은 얼굴 전체 형태와 윤곽, 특히 이목구비 비율에 높은 관련성을 부여한다. 이러한 차이는 모델이 학습한 피처의 풍부함을 직접적으로 보여준다. 학습 곡선 분석에서도 연령 모델이 더 빠르게 수렴하는데, 이는 LRP가 이미 중요한 피처를 많이 보유하고 있기 때문이다. 따라서 LRP는 전이학습 시 어떤 베이스 모델이 목표 과제에 적합한지를 사전에 판단하는 도구로 활용될 수 있다. 감정 인식 실험에서는 KDEF 데이터의 동일 인물에 대한 행복·비행복 표정을 비교하였다. 히트맵은 행복 상태에서 입술·치아(미소), 코 주변, 볼 디플, 눈썹 윤곽 등에 높은 관련성을 부여하고, 비행복에서는 이러한 영역의 강조가 감소한다. 특히 입술 부위가 행복 판단에 가장 큰 영향을 미치는 것으로 나타났다. 추가로 부분 가림(occlusion) 실험을 수행해 모델의 민감 부위를 검증하였다. 입술을 가리면 두 모델 모두 행복 점수가 크게 감소하고, 눈을 가리면 점수가 약간 상승하는 현상이 관찰되었다. 이는 모델이 입술을 행복 판단의 핵심 피처로 사용하고, 눈은 부수적인 정보에 불과함을 의미한다. 결론적으로, 논문은 (1) 전이학습 시 베이스 모델 선택에 LRP 기반 피처 분석이 실용적인 가이드가 됨을, (2) 다중 클래스 베이스 모델이 더 풍부한 피처를 제공해 전이학습 효율을 높임을, (3) LRP가 인간 인지와 유사한 시각적 근거를 제공함을 입증한다. 이러한 접근은 작은 데이터셋에서도 딥러닝 모델의 ‘왜’와 ‘어디서’ 결정을 설명할 수 있는 강력한 도구로 활용 가능하며, 향후 심리학·사회학 분야의 정량적 연구에 중요한 기여를 할 것으로 기대된다.

얼굴표정 예측 신경망 해석과 전이학습 전략

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기