극소형 파라미터 얼굴 검출기 EXTD: 반복 필터 재사용 기반 멀티스케일 탐지

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 0.1 백만 이하의 파라미터만을 사용하면서도 WIDER FACE 데이터셋에서 최신 대형 모델에 필적하는 정확도를 달성한 초소형 얼굴 검출기 EXTD를 제안한다. 핵심 아이디어는 얕고 경량인 백본 네트워크를 반복적으로 재사용해 여러 스케일의 특징 맵을 생성하는 ‘Iterative Filter Reuse’ 방식이며, 이를 SSD와 FPN 두 가지 검출 파이프라인에 적용하였다. 인버티드 레지듀얼 블록과 깊이별 컨볼루션을 활용해 파라미터와 FLOPs를 크게 줄였으며, 실험 결과 파라미터 400 KB 수준에서도 S3FD와 유사한 mAP를 기록한다.

상세 분석

EXTD는 기존 멀티스케일 얼굴 검출기가 하나의 깊은 백본(VGG‑16, ResNet‑50 등)에서 서로 다른 해상도의 특징 맵을 동시에 추출하는 방식과 달리, ‘백본 공유’를 핵심 설계 원칙으로 삼는다. 구체적으로, 이미지 입력을 640×640으로 고정하고, 첫 번째 스트라이드‑2 컨볼루션을 거친 뒤 인버티드 레지듀얼 블록(모바일넷‑V2 스타일)을 반복 적용한다. 이때 f₀ = E(x) 로 시작해 fᵢ = F(fᵢ₋₁) (i = 1…N) 로 N = 6개의 단계적 특징 맵을 순차적으로 생성한다. 각 단계마다 해상도가 절반씩 감소하므로 160×160, 80×80, 40×40, 20×20, 10×10, 5×5 의 6가지 스케일을 제공한다.

FPN 형태에서는 각 fᵢ를 bilinear upsample 후 depth‑wise + point‑wise 컨볼루션으로 구성된 업샘플 블록을 통과시켜 gᵢ를 만든 뒤, 스킵 연결을 통해 고해상도 특징에 저해상도 단계의 풍부한 의미 정보를 주입한다. 이는 전통적인 FPN이 별도의 lateral 연결과 추가 파라미터를 요구하는 것과 달리, 동일한 백본을 재활용함으로써 파라미터 증가 없이 의미적 풍부함을 확보한다. SSD 형태에서는 fᵢ 자체에 바로 분류·회귀 헤드를 연결한다. 헤드 구조는 3×3 컨볼루션 하나로 구성되며, 작은 얼굴에 대한 오탐을 줄이기 위해 첫 번째 레이어에 Maxout을 적용한다.

파라미터 측면에서 인버티드 레지듀얼 블록은 채널 확장‑축소 구조와 PReLU(또는 Leaky‑ReLU)를 사용해 학습 안정성을 높였으며, 전체 모델 파라미터는 0.1 M 이하(≈400 KB)로 제한된다. FLOPs 역시 1 G 이하로 감소해 모바일 CPU에서도 실시간 추론이 가능하다.

학습은 RPN 스타일의 다중 과제 손실(l_cls + λ l_reg)로 진행하고, 클래스 불균형을 완화하기 위해 온라인 하드 네거티브 마이닝과 스케일 보상 앵커 매칭을 도입한다. 데이터 증강은 S3FD와 동일하게 색상 왜곡, 랜덤 크롭, 좌우·상하 플립을 적용한다.

실험 결과, WIDER FACE의 Easy, Medium, Hard 세 서브셋 모두에서 S3FD(모바일 백본 사용)와 거의 동일한 AP를 기록했으며, 파라미터와 FLOPs는 20~100배 수준으로 감소했다. 특히 작은 얼굴(Hard 서브셋)에서 FPN 버전이 SSD 버전보다 더 큰 이득을 보였는데, 이는 반복적인 백본 재사용이 저해상도 단계에 고수준 의미 정보를 전달함으로써 작은 객체 검출 능력이 향상된 것으로 해석된다.

전체적으로 EXTD는 “백본 재사용 → 파라미터 절감 → 의미 전달 강화”라는 삼위일체 설계 철학을 입증했으며, 경량화가 필수인 임베디드·모바일 환경에서 실용적인 얼굴 검출 솔루션으로 자리매김할 가능성이 크다.

극소형 파라미터 얼굴 검출기 EXTD: 반복 필터 재사용 기반 멀티스케일 탐지

초록

상세 분석

댓글 및 학술 토론

의견 남기기