깊이 인식 복사 붙여넣기: 현실적인 합성으로 강력한 얼굴 감지 구현
초록
기존 복사-붙여넣기 데이터 증강의 비현실적 합성 문제를 해결하기 위해, 본 연구는 다중 모달 의미 이해와 깊이 지도를 활용한 ‘Depth-Copy-Paste’ 프레임워크를 제안한다. BLIP과 CLIP으로 의미론적으로 호환되는 배경을 자동 선별하고, SAM3 분할과 Depth-Anything 깊이 추정으로 가려지지 않은 얼굴 영역만 정확히 추출하며, 깊이 지도 기반 슬라이딩 윈도우 배치 메커니즘으로 기하학적 일관성을 보장한다. 이를 통해 생성된 현실적인 합성 이미지는 얼굴 감지 모델의 강건성을 크게 향상시킨다.
상세 분석
본 논문이 제안하는 Depth-Copy-Paste 프레임워크의 핵심 기술적 통찰은 ‘다중 모달 의미 일관성’과 ‘깊이 기반 기하학적 정합’이라는 두 축을 통합했다는 점이다. 기존 방법이 무작위 배경 선정이나 단순한 분할에 의존하여 발생하던 의미적 부조화(실내 인물을 야외 배경에 붙이는 등)와 기하학적 비일관성(떠다니는 인물, 잘못된 크기 조정)을 동시에 해결한다.
첫째, 다중 모달 배경 검색 모듈은 BLIP을 통해 전경 인물 이미지의 텍스트 설명(예: “실내에서 웃고 있는 여성”)을 생성하고, CLIP의 텍스트 인코더와 이미지 인코더를 활용하여 이 텍스트 의미와 시각적 유사성을 동시에 고려해 최적의 배경을 검색한다. 이는 단순한 장면 분류를 넘어서 활동 맥락, 조명, 환경 유형 등 고수준 의미 정보를 반영하여 합성의 현실성을 높인다.
둘째, 전경 추출 모듈은 정밀 분할(SAM3)과 가시성 판별(Depth-Anything)을 결합한 점이 혁신적이다. SAM3만으로는 머리카락이나 손에 가려진 얼굴 부분까지 포함된 마스크를 생성할 수 있다. Depth-Anything으로 생성된 깊이 지도에서 지역적 깊이 불연속점(급격한 깊이 변화)을 감지하여 가려진 영역을 필터링함으로써, 최종 마스크는 ‘실제로 보이는 얼굴 영역’만을 포함하게 된다. 이는 합성 시 가상의 배경 텍스처가 가려진 부위를 덮어쓰는 비현실적인 아티팩트를 방지한다.
셋째, 깊이 가이드 배치 메커니즘은 합성의 물리적 정합성을 보장한다. 전경과 배경의 깊이 지도를 정규화한 후, 슬라이딩 윈도우 방식으로 배경 지도를 탐색하며, 전경의 깊이 평균/분산과 가장 유사하고 지역적 깊이 변화(경계선)가 적은 최적의 붙여넣기 위치를 수치적으로 탐색한다. 이는 인물이 배경의 깊이 구조에 자연스럽게 용해되도록 하며, 크기와 원근감을 자동으로 조정하는 효과를 가져온다.
이러한 접근법은 단순한 데이터 증강을 넘어, 생성형 AI의 합성 정밀도를 높이는 방법론적 프레임워크로도 의미가 있다. 실험 결과, WIDER Face 벤치마크에서 기존 복사-붙여넣기나 깊이 정보를 사용하지 않은 방법 대비 성능이显著히 향상되었으며, 특히 Medium 및 Hard 난이도(소형 얼굴, 복잡한 배경, 가림 현상)에서의 향상폭이 두드러졌다. 이는 제안 방법이 생성하는 데이터의 다양성과 현실성이 모델의 일반화 능력에 직접적으로 기여함을 입증한다.
댓글 및 학술 토론
Loading comments...
의견 남기기