다양한 의류와 신체 부위를 파악하는 3D 텍스처 기반 인간 파싱
초록
Spectrum은 3D 텍스처 생성 모델을 재활용해 인간 이미지에서 신체 부위와 다양한 의류를 세밀하게 구분한다. 이미지‑투‑텍스처(I2Tx) diffusion 모델의 내부 특징을 추출하고, 텍스트 프롬프트와 대비 학습으로 마스크를 의미적으로 정렬한다. 실험에서 기존 오픈‑보카뷸러리 세그멘테이션 및 전통 파싱 방법을 지속적으로 능가한다.
상세 분석
본 논문은 인간 파싱에서 기존 방법이 고정된 라벨 집합에 의존해 세밀한 의류 종류와 신체 부위를 구분하지 못한다는 문제점을 지적한다. 최근 텍스트‑투‑이미지(T2I) diffusion 모델을 활용한 오픈‑보카뷸러리 세그멘테이션이 제로‑샷 전이 능력은 뛰어나지만, 인간 전체를 하나의 ‘person’ 마스크로 처리해 세부 구분이 불가능하다. 이를 해결하기 위해 저자들은 3D 텍스처 생성에 특화된 Image‑to‑Texture(I2Tx) diffusion 모델을 재활용한다. I2Tx는 Stable Diffusion 기반에 LoRA 어댑터를 추가해 3D 인간 텍스처 맵(ATLAS 데이터셋)으로 미세조정된 모델로, 이미지와 텍스처 사이의 높은 일치성을 유지한다.
Spectrum은 입력 이미지와 텍스트 프롬프트를 동시에 입력받아, I2Tx 모델의 인코더, 디노이저, 디코더 출력을 연결(concatenate)한 텍스처‑정렬 특징 f를 얻는다. 이 특징은 Feature‑Pyramid Network 기반 픽셀 디코더와 트랜스포머 디코더에 전달되어 N(=100)개의 클래스‑불가지 마스크를 예측한다. 마스크별 평균 풀링을 통해 얻은 임베딩 z_i와, OPEN‑CLIP으로 인코딩된 프롬프트 임베딩 T(p_k) 사이의 대비 손실 L_G를 적용해 텍스트와 마스크를 의미적으로 정렬한다. 또한 BCE와 Dice 손실을 결합해 마스크 형태와 정확도를 동시에 최적화한다.
학습 데이터는 CosmicMan‑HQ에서 추출한 100K 이미지와 BLIP‑생성 캡션이며, 17개의 기본 카테고리(신체 부위·의류)와 상세한 문구를 활용한다. 프롬프트는 명사·형용사 중심으로 9개를 추출해 사용한다. 모델 파라미터는 2.0 B 중 0.86 %만 학습 가능 파라미터이며, 8개의 A100 GPU에서 12일 이상 학습한다.
평가에서는 Full‑Person Parsing(FPP), Bare Human Parsing(BHP), COCO Category Parsing(CCP), Clothing‑Only Parsing(COP) 네 가지 설정으로 기존 최첨단 방법(ODISE, MaskCLIP, SEEM 등)과 비교한다. Spectrum은 특히 미보인 의류(예: 사리)와 복잡한 포즈에서 높은 IoU와 mAP를 기록하며, 다중 인스턴스 상황에서도 각 사람의 신체 부위와 의류를 정확히 구분한다. 한계점으로는 텍스처 맵에 의존하는 특성 때문에 완전한 3D 복원 없이 2D 이미지만으로는 매우 얇은 액세서리(목걸이 등)의 구분이 어려울 수 있다. 향후 연구에서는 텍스처‑기반 특징을 비디오 프레임에 확장하고, 라벨‑프리 학습을 통해 어노테이션 비용을 감소시키는 방향을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기