소셜 이미지에서 옷 찾기 실시간 스트리트투샵 시스템
본 논문은 인스타그램·트위터 등 소셜 미디어에 등장하는 인플루언서 사진에서 착용한 의류를 자동으로 인식하고, 온라인 카탈로그와 매칭시켜 가장 유사한 제품을 찾아주는 엔드‑투‑엔드 파이프라인을 제안한다. 고수준 의류 영역(Top, Bottom 등)을 YOLOv3·SSD 등 다중 CNN 탐지기로 먼저 찾고, 이를 146개의 세분화된 클래스로 분류한 뒤, 다중 과제 손실을 이용해 학습한 임베딩을 추출해 최근접 이웃 검색을 수행한다. 데이터 수집·증강…
저자: Son Tran, Ming Du, Sampath Ch
본 논문은 소셜 미디어에 올라오는 “인플루언서” 사진에서 착용한 의류를 자동으로 인식하고, 온라인 카탈로그에 존재하는 동일하거나 유사한 제품을 찾아주는 종단‑to‑종단 파이프라인을 제시한다. 연구 배경으로는 현대 SNS 사용자가 다른 사람의 스타일을 보고 구매 결정을 하는 현상이 급증하고 있으며, 기존 패션 검색 시스템은 제한된 포즈·조명·배경 조건에서만 잘 동작한다는 한계가 있다. 이를 극복하기 위해 저자들은 세 가지 핵심 모듈을 설계하였다.
1. **고수준 의류 영역 탐지 (Localization)**
- 탐지 대상은 15개의 고수준 클래스(예: headwear, top, bottom, dress, footwear 등)이며, 각 클래스는 사람 이미지에서 흔히 나타나는 위치와 크기를 공유한다.
- YOLOv3와 SSD 두 종류의 최신 객체 탐지기를 각각 다른 백본(ResNet‑50, Darknet‑53, VGG)과 해상도(300 px, 416 px)로 학습시켜, 탐지 정확도와 실시간 성능 사이의 트레이드오프를 조절한다.
- 실시간 서비스에서는 경량 SSD‑512‑VGG만 사용하고, 오프라인 인덱스 구축 단계에서는 SSD‑512‑ResNet50, YOLOv3‑300, YOLOv3‑416을 앙상블해 NMS 후 결합함으로써 리콜을 극대화한다.
- 실험에서는 자체 수집한 50 K 이미지(총 320 K 바운딩 박스)로 학습한 탐지기가 OpenImages 기반 모델보다 mAP 0.71 대 0.60으로 우수함을 입증한다.
2. **세분화 제품 유형 분류 및 다중 과제 임베딩 (Fine‑grained Classification & Feature Extraction)**
- 고수준 탐지 결과를 바탕으로 각 영역별(Top, Bottom, Dress 등) 146개의 세분화 클래스(예: denim jacket, tunic, blouse 등)로 분류한다.
- 모든 세분화 분류기는 ResNet‑18을 백본으로 사용하고, 제품 유형 외에 색상, 패턴, 목형, 소매형 등 10여 개의 부가 속성을 동시에 예측하도록 다중 과제 손실을 설계한다.
- 각 과제마다 128‑D 전결합 레이어를 삽입하고, 손실 가중치를 제품 유형 1.0, 색상 0.3, 기타 0.1로 설정해 사용자 인지 순서(occasion → type → color → pattern)를 반영한다.
- 최종 임베딩은 pool5 레이어의 512‑D 벡터이며, 이는 제품 유형, 색상, 패턴 등 복합적인 시각 정보를 내포한다. 실험에서는 데이터 정제(노이즈 제거) 전후 정확도가 5‑8 % 상승하는 등 다중 과제 학습의 효과가 확인되었다.
3. **시각적 유사도 검색 및 인덱싱 (Visual Similarity Search & Indexing)**
- 카탈로그 이미지와 고객 리뷰 이미지를 활용해 대규모 학습 데이터를 확보한다. 카탈로그 이미지는 배경이 없고 정제된 형태이므로, 무작위 자연 이미지 배경을 Poisson 블렌딩 기법으로 합성해 도메인 차이를 완화한다.
- 중복 이미지(동일 제품·동일 사진) 문제를 해결하기 위해 판매량이 낮은 아이템을 필터링하고, 이미지 해시·k‑NN 기반 중복 제거 그래프를 구축해 각 중복 군집당 대표 이미지만을 인덱스에 남긴다.
- 각 세분화 클래스·성별별로 별도 인덱스를 구성해 총 약 500개의 서브 인덱스를 만든다.
- 검색 단계에서는 탐지된 영역을 해당 세분화 분류기에 입력해 512‑D 임베딩을 추출하고, hnsw 라이브러리를 이용해 Approximate Nearest Neighbor 검색을 수행한다. 검색 결과는 동일 클래스·성별 내에서 거리 기반으로 재정렬된다.
**데이터 구축**
- 공개 데이터(OpenImages)는 라벨 불균형·불완전·카탈로그와의 클래스 불일치 문제로 활용도가 낮아, 저자들은 자체적으로 50 K 웹 이미지와 320 K 바운딩 박스를 라벨링했다. 라벨링은 전문 벤더를 통해 수행해 품질을 확보했으며, 평균 16 K 박스가 각 고수준 클래스에 할당되었다.
- 카탈로그 이미지와 고객 리뷰 이미지는 자동 라벨(브라우즈 노드)과 이미지 전처리(배경 합성, 중복 제거)를 통해 대규모 학습 샘플로 변환되었다.
**실험 결과**
- 탐지 단계: YOLOv3‑416 기반 모델이 자체 데이터로 학습했을 때 mAP 0.71, OpenImages 기반 모델은 0.60. SSD‑512‑ResNet50은 0.70, 앙상블은 2 % 추가 향상.
- 분류 단계: Top(33 클래스), Bottom(10 클래스), Dress(5 클래스) 각각에서 정제 전후 정확도 차이가 5‑8 %이며, 전체 정확도는 78 % 수준(정제 후).
- 검색 단계: 인간 평가를 통해 제시된 이미지와 카탈로그 아이템 간 시각적 유사도가 높은 순위에 배치됨을 확인했으며, 실시간 응답 시간은 100 ms 이하로 유지된다.
**결론 및 의의**
본 연구는 고수준 탐지 → 세분화 분류 → 다중 과제 임베딩 → 효율적 ANNS 검색이라는 파이프라인을 통해 “스트리트‑투‑샵” 문제를 실용적인 수준으로 해결한다. 데이터 수집·정제, 도메인 차이 보정, 다중 과제 학습이라는 세 가지 핵심 기술이 서로 보완하며, 상업용 패션 검색 서비스에 바로 적용 가능한 엔드‑투‑엔드 시스템을 제시한다. 향후 연구에서는 더 정교한 포즈·레이어링 처리와 사용자 맞춤형 랭킹 모델을 도입해 개인화된 스타일 추천으로 확장할 여지가 있다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기