얼굴 가림 영역 자동 분할을 위한 대조 기반 자기지도 프롬프트 학습

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

S³POT은 얼굴 생성 모델로 가림 없는 참조 이미지를 만들고, SAM의 이미지 토큰을 대조해 초기 프롬프트를 추출한다. 이후 교차‑어텐션으로 특징을 강화하고, 그린 매칭과 자기‑어텐션으로 가림(양성)·얼굴(음성) 프롬프트를 자동 선택한다. 세 가지 자체 설계 손실(OCR, FPR, FPP)로 지도 없이 학습하며, 새로 구축한 실세계 가림 데이터셋에서 기존 방법보다 우수한 성능을 보인다.

상세 분석

본 논문은 “가림은 구체적인 객체 카테고리가 아니라 얼굴‑외부 물체와의 공간 관계”라는 근본적인 정의에서 출발한다. 따라서 모든 종류의 가림을 포괄하는 라벨링은 현실적으로 불가능하고, 기존 얼굴 파싱 모델은 가림을 얼굴 부위로 오분류한다. S³POT은 이 문제를 두 가지 최신 기술, 즉 고품질 얼굴 생성 모델과 범용 세그멘테이션 모델(SAM)을 결합함으로써 해결한다.

첫 번째 모듈인 Reference Generation(RG)은 입력 이미지와 기존 파싱 마스크를 조건으로 사용해, 구조는 그대로 유지하면서 가림을 제거한 ‘참조 얼굴’을 생성한다. 여기서 핵심은 Regional GAN Inversion(RGI)을 활용해 텍스처는 원본을, 구조는 마스크를 그대로 복원함으로써 기하학적 일관성을 보장한다는 점이다.

두 번째 모듈 Feature Enhancement(FE)에서는 원본 이미지와 참조 이미지의 SAM 이미지 인코더 토큰 Z와 Zʳ를 얻고, 토큰 간 코사인 유사도를 계산한다. 가장 높은 유사도를 보이는 토큰 위치를 초기 프롬프트 pᵢ로 선정하는데, 이는 가림이 없는 영역이 원본과 가장 유사하다는 가정에 기반한다. pᵢ는 프롬프트 인코더를 거쳐 임베딩으로 변환되고, 이후 pᵢ‑Z 교차‑어텐션과 Z‑pᵢ 교차‑어텐션을 통해 양 이미지 토큰을 상호 보강한다. 이 과정은 SAM의 사전학습된 마스크 디코더 구조를 그대로 활용해, 얼굴과 가림 사이의 특징 차이를 명확히 만든다.

세 번째 모듈 Prompt Selection(PS)은 강화된 토큰 집합에서 실제 가림과 얼굴을 구분하는 프롬프트를 자동으로 추출한다. 먼저 얼굴 영역 마스크 M_f를 파싱 마스크에서 정의된 부위(눈, 코, 입 등)로 제한하고, 해당 영역 토큰 Zᵣ^M_f와 전체 이미지 토큰 Zᵉ 사이에 그리디 매칭을 수행한다. 매칭되지 않은 토큰은 가림 프롬프트(P_O)로, 매칭된 토큰은 비가림 프롬프트(P_N)로 분류된다. 이후 자기‑어텐션 레이어가 각 프롬프트의 중요도를 학습적으로 재가중해, 불필요하거나 노이즈가 섞인 프롬프트를 억제한다.

지도 없이 학습하기 위해 제안된 세 손실 함수는 서로 보완적인 역할을 한다. Occlusion Prompt Recall(L_rec^occ)은 가림 프롬프트가 마스크 확률 맵에서 높은 값을 갖도록 로그 확률을 최대화한다. Face Prompt Recall(L_rec^face)는 비가림 프롬프트의 평균 확률을 최소화한다. 마지막으로 Face Prompt Penalty(L_face^penalty)는 비가림 프롬프트 중 0.5 이상인 값을 sigmoid‑형태로 강하게 억제해, 가림 영역이 과도하게 확장되는 현상을 방지한다. 전체 손실은 L_total = L_rec^occ + L_rec^face + λ·L_face^penalty 로 구성된다.

데이터 측면에서 저자는 대형 언어 모델(Qwen)을 이용해 CelebA‑Mask‑HQ와 FFHQ에서 가림이 포함된 이미지를 자동 필터링하고, X‑AnyLabeling 툴로 정밀 마스크를 수작업 라벨링해 2,493장의 데이터셋을 구축하였다. 실험 결과, S³POT은 기존 합성 가림 데이터 기반 방법과 최신 SAM 파생 모델들을 크게 앞서며, 특히 다양한 실세계 가림(마스크, 손, 안경 등)에서 높은 IoU와 F1 점수를 기록한다. 각 모듈을 제거하거나 손실 함수를 변형한 ablation 실험을 통해 제안된 설계가 모두 성능 향상에 기여함을 입증한다.

요약하면, S³POT은 “대조‑프롬프트‑자기지도”라는 새로운 패러다임을 제시함으로써, 라벨이 없는 복잡한 가림 상황에서도 강건한 얼굴 가림 분할을 가능하게 만든다.

얼굴 가림 영역 자동 분할을 위한 대조 기반 자기지도 프롬프트 학습

초록

상세 분석

댓글 및 학술 토론

의견 남기기