마스크 기반 다중작업 네트워크를 활용한 얼굴 속성 인식
초록
본 논문은 얼굴 속성 인식을 위해 전역 특징에 의존하는 기존 멀티태스크 모델의 한계를 극복하고자, 적응형 마스크 학습(AML)과 그룹‑전역 특징 융합(G2FF)을 결합한 마스크‑가이드 멀티태스크 네트워크(MGMTN)를 제안한다. 사전 학습된 키포인트 모델과 UNet을 이용해 눈·입·코 등 부위별 마스크를 자동 생성하고, 각 마스크에 해당하는 영역만을 강조해 그룹 전용 서브네트워크에 전달한다. 이후 전역 특징과 그룹 특징을 채널‑단위로 결합해 속성별 분류기를 학습함으로써, 불필요한 전역 정보에 의한 부정적 전이(negative transfer)를 크게 감소시킨다. CelebA와 LFWA 데이터셋에서 기존 최첨단 방법들을 능가하는 성능 향상을 입증하였다.
상세 분석
MGMTN은 얼굴 속성 인식(FAR)에서 ‘전역 특징이 모든 속성에 동일하게 기여한다’는 전제의 문제점을 정확히 짚어낸다. 전통적인 멀티태스크 네트워크는 공유된 백본 뒤에 그룹별 비공유 모듈을 두어 속성 간 관계를 학습하지만, 여전히 전체 피처맵을 입력으로 사용하기 때문에 속성과 무관한 영역이 과다하게 포함된다. 이는 특히 속성마다 시각적 근거가 명확히 구분되는 얼굴 부위(예: 눈, 입, 코)에서 부정적 전이(negative transfer)를 야기한다.
AML은 이러한 문제를 해결하기 위해 두 단계의 핵심 전략을 도입한다. 첫째, 사전 학습된 Farl(FAce REcognition) 키포인트 검출 모델을 활용해 98개의 정밀 키포인트를 추출한다. 둘째, 추출된 키포인트를 기반으로 각 속성 그룹에 대응하는 최소 사각형 영역을 정의하고, 이를 바탕으로 8개의 마스크(입·귀·하부 얼굴·볼·코·눈·머리·객체)를 생성한다. UNet 구조를 사용해 마스크를 픽셀‑레벨 이진 분류 문제로 학습시키며, 각 마스크는 독립적인 출력 헤드에서 동시에 예측된다. 이때 다중 마스크 예측을 다태스크 학습으로 처리함으로써 마스크 간 겹침을 자연스럽게 조정한다.
생성된 마스크는 원본 피처맵에 원소별 곱(⨉) 연산을 수행해 그룹 전용 피처를 추출한다. 여기서 중요한 점은 마스크가 ‘관심 영역만을 강조하고 배경을 억제’함으로써, 그룹 서브네트워크가 불필요한 전역 정보를 받지 않게 된다는 것이다. 따라서 각 그룹은 자신에게 의미 있는 지역적 특징만을 학습하게 되며, 파라미터 효율성도 향상된다.
G2FF는 그룹 피처와 전역 피처를 채널 차원에서 결합(⊕)하는 단순하지만 효과적인 융합 메커니즘이다. 전역 피처는 얼굴 전체의 구조적·시맨틱 정보를 제공하고, 그룹 피처는 세부 부위의 미세 차이를 포착한다. 두 정보를 결합함으로써 서로 보완적인 특성을 동시에 활용할 수 있다. 이후 각 그룹별 분류 헤드는 두 개의 완전 연결층으로 구성되며, 차원 축소(3584→512) 후 속성별 이진 예측을 수행한다.
실험에서는 ResNeSt‑50을 백본으로 채택하고, CelebA(40개 속성)와 LFWA(40개 속성)에서 표준 정확도와 평균 정확도(mean accuracy) 모두 기존 SOTA 모델(DMTL, MGG‑Net, APS 등)을 앞선다. 특히 눈·입·코와 같이 지역적 의존성이 높은 속성에서 2~3%p 이상의 개선을 보이며, 전역 기반 모델이 겪는 과잉 학습과 부정적 전이를 효과적으로 억제한다는 점을 실증한다.
한계점으로는 마스크 생성에 키포인트 검출 정확도가 크게 의존한다는 점이며, 조명·표정·극단적 포즈에서 키포인트 오류가 발생하면 마스크 품질이 저하될 수 있다. 또한 UNet을 고정(frozen) 상태로 학습함으로써 마스크와 피처 추출 간의 공동 최적화 가능성을 제한한다는 점도 향후 연구 과제로 남는다.
전반적으로 MGMTN은 ‘어디서 무엇을 봐야 하는가’를 명시적으로 모델에 전달함으로써, 멀티태스크 얼굴 속성 인식에서 효율성과 정확성을 동시에 끌어올린 혁신적인 설계라 할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기