맥락 정보를 활용한 전반적 패션 아이템 검출
📝 원문 정보
- Title: Holi-DETR: Holistic Fashion Item Detection Leveraging Contextual Information
- ArXiv ID: 2512.23221
- 발행일: 2025-12-29
- 저자: Youngchae Kwon, Jinyoung Choi, Injung Kim
📝 초록 (Abstract)
패션 아이템 검출은 다양한 외관과 하위 카테고리 간 유사성으로 인한 모호성이 큰 과제이다. 이를 해결하기 위해 본 연구는 복합적인 복장 이미지에서 아이템을 전체적으로 탐지하고, 맥락 정보를 활용하는 새로운 Holistic Detection Transformer(Holi‑DETR)를 제안한다. 패션 아이템은 특정 스타일을 만들기 위해 의미 있는 관계를 형성하므로, 기존에 각 아이템을 독립적으로 탐지하던 방식과 달리 Holi‑DETR는 (1) 아이템 간 동시 출현 관계, (2) 아이템 간 상대적 위치·크기에 기반한 공간 배치, (3) 아이템과 인간 신체 키포인트 간의 공간 관계라는 세 가지 이질적인 맥락 정보를 동시에 활용한다. 이를 위해 DETR와 그 파생 모델에 위 세 종류의 맥락 정보를 통합하는 새로운 아키텍처를 설계하였다. 실험 결과, 제안 방법은 기존 DETR와 최신 Co‑DETR의 평균 정밀도(AP)를 각각 3.6 pp와 1.1 pp 향상시켰다.💡 논문 핵심 해설 (Deep Analysis)

기술적으로는 기존 DETR의 쿼리-키-밸류 메커니즘에 추가적인 임베딩 레이어를 삽입해 세 종류의 맥락 벡터를 각각 인코딩하고, 이를 다중 헤드 어텐션에 병합한다. 이렇게 하면 각 쿼리가 아이템 자체 특징뿐 아니라 전역적인 스타일 맥락, 공간적 배치, 그리고 인간 포즈 정보를 동시에 고려하게 된다. 또한, Co‑DETR와 같은 상호작용 기반 확장 모델에 쉽게 적용할 수 있도록 모듈식 설계가 이루어졌다.
실험에서는 DeepFashion2와 같은 대규모 패션 데이터셋을 사용해 AP(average precision) 기준으로 성능 향상을 입증하였다. 특히 작은 액세서리와 겹쳐진 아이템에 대한 검출률이 크게 상승했으며, 이는 제안된 맥락 정보가 실제 현장에서의 복잡한 복장 구성을 효과적으로 해석한다는 증거이다. 다만, 현재 구현은 사전 학습된 인간 포즈 추정기가 필요하므로 파이프라인 복잡도가 증가하고, 포즈 추정 오류가 전반적인 검출 성능에 영향을 미칠 가능성이 있다. 향후 연구에서는 맥락 정보를 보다 가벼운 형태로 압축하거나, 포즈 추정과 아이템 검출을 공동 학습하는 엔드‑투‑엔드 구조를 탐색함으로써 실시간 응용 가능성을 높이는 방향이 기대된다.
📄 논문 본문 발췌 (Translation)
📸 추가 이미지 갤러리