얼굴 정렬을 위한 다중 속성 학습과 동적 과제 가중치
초록
본 논문은 얼굴 랜드마크 검출을 주 작업으로 삼고, 성별·표정·안경 착용 등 22개의 보조 속성을 동시에 학습하는 TCDCN 모델을 제안한다. 동적 과제 계수와 과제 간 상관관계 행렬을 도입해 서로 다른 학습 난이도와 수렴 속도를 조정함으로써, 기존의 복잡한 캐스케이드 CNN보다 적은 파라미터로 높은 정밀도를 달성한다.
상세 분석
TCDCN은 먼저 5개의 주요 랜드마크(양쪽 눈, 코, 양쪽 입꼬리)를 이용해 60×60 입력 이미지를 전처리하고, 5단계의 합성곱‑풀링 구조를 통해 256차원의 고차원 특징 벡터 x를 추출한다. 이후 x를 선형 모델에 연결해 M개의 랜드마크 좌표와 T개의 이진 속성 라벨을 동시에 예측한다. 핵심은 두 가지 설계 요소이다. 첫째, 동적 과제 계수 λt 를 도입해 각 보조 과제의 손실 기여도를 학습 진행 상황에 따라 자동으로 조정한다. 검증 오차가 감소하지 않으면 해당 과제의 λt 를 감소시켜 과제 간 경쟁을 완화하고, 주 작업인 랜드마크 검출이 안정적으로 수렴하도록 만든다. 둘째, 과제 가중치 행렬 W 를 행렬 정규분포 MN(D, M+T)(0, Υ, ε²I) 로 모델링해 과제 간 상관관계 Υ 를 학습한다. 이는 서로 연관된 속성(예: 포즈와 눈 위치) 사이에 공유된 표현을 강화하고, 불필요한 상관관계는 억제한다. 학습은 교대 최적화 방식으로 진행되며, (i) 네트워크 파라미터 K 를 고정하고 W 와 Υ 를 업데이트하고, (ii) W 와 Υ 를 고정한 뒤 K 를 미분하여 역전파한다. 이렇게 하면 서로 다른 과제의 수렴 속도 차이를 완화하면서도 전체 모델이 공동 최적화된다. 실험에서는 COFW, 300‑W, Helen 등 다양한 벤치마크에서 기존 캐스케이드 CNN(예: Sun et al.)보다 평균 오류가 10% 이상 감소했으며, 파라미터 수는 70% 이상 절감되었다. 특히 심한 가림이나 큰 회전 각도에서도 보조 속성으로부터 얻은 구조적 제약이 랜드마크 위치 추정의 강인성을 크게 높였다. 또한, 사전 학습 단계에서 5개 랜드마크만 사용해 초기 가중치를 학습한 뒤, 더 많은 랜드마크(68점, 194점)로 전이 학습함으로써 라벨링 비용을 최소화하면서도 높은 정확도를 유지한다.
댓글 및 학술 토론
Loading comments...
의견 남기기