다중조건부 GAN을 이용한 패션 합성 혁신: Poly‑GAN

Poly‑GAN은 하나의 엔코더‑디코더 구조에 다중 조건을 모든 레이어에 주입하고, 코스 레이어 스킵 연결을 활용해 의상 변형·스티칭·인페인팅을 동시에 수행하는 조건부 GAN이다. RGB 스켈톤과 원본 의상 이미지를 입력으로 받아 임의 자세의 모델에 자연스럽게 의상을 입히며, DeepFashion 데이터셋 기준 SSIM·Inception Score에서 기존 VTON 방법들을 앞선다.

저자: Nilesh P, ey, Andreas Savakis

다중조건부 GAN을 이용한 패션 합성 혁신: Poly‑GAN
본 논문은 패션 합성(Fashion Synthesis) 분야에서 기존 3단계 파이프라인(포즈 정렬, 스티칭, 정제)을 하나의 통합 GAN 구조로 대체하는 **Poly‑GAN**을 제안한다. Poly‑GAN은 다중 입력(참조 의상 이미지, RGB 스켈톤, 세그멘테이션 마스크 등)을 받아 모든 인코더 레이어에 조건을 주입하고, 코스 레이어(4×4, 8×8, 16×16)에서 디코더로 스킵 연결을 수행한다. 이러한 설계는 조건 정보가 깊은 레이어까지 유지되게 하여, 자세 변형 시 의상의 형태와 텍스처가 정확히 따라가도록 만든다. **1. 배경 및 문제점** 패션 합성은 임의 자세의 모델에 원하는 의상을 자연스럽게 입히는 작업으로, 자세 변형, 셀프‑오클루전, 데이터 부족 등 여러 난관이 존재한다. 기존 VTON(Virtual Try‑On) 방법들은 포즈 정렬 네트워크, 스티칭 네트워크, 정제 네트워크를 각각 별도로 학습시켜 파이프라인을 구성한다. 이때 스티칭 단계에서 색 번짐, 블러, 누락된 영역 등이 발생한다. **2. Poly‑GAN 구조** - **Encoder**: 세 부분으로 구성된다. (a) Conv‑Module: 3개의 Conv‑ReLU 블록으로, 각 레이어마다 조건(예: RGB 스켈톤, 의상 이미지)을 3채널 Conv로 변환해 특징 맵에 합산한다. (b) ResNet‑Module: 표준 residual block을 사용해 깊은 특징을 학습한다. (c) Conv‑Norm‑Module: Conv‑+InstanceNorm‑+ReLU 블록으로, ResNet과 Conv‑Module에서 나온 특징을 결합해 정규화한다. - **Decoder**: ResNet 블록 뒤에 전치 합성곱(Transposed Conv)으로 업샘플링한다. 코스 레이어 스킵 연결을 통해 4×4, 8×8, 16×16 수준의 특징을 직접 전달, 세부 디테일과 전역 형태를 동시에 보존한다. - **Discriminator**: SRGAN(LEDIG 등)에서 차용한 PatchGAN 형태로, L2 기반 LS‑GAN 손실을 사용해 블러를 억제한다. **3. 손실 함수** 총 손실 L = L_adv + L_gan + L_id 로 구성된다. - L_adv: LS‑GAN 방식의 L2 손실, 블러 억제. - L_gan: 생성 이미지와 실제 라벨 간 L2 거리, GAN 목표. - L_id: L1 거리, 색·텍스처 보존. λ 파라미터(λ1~λ4)는 실험적으로 튜닝하였다. Perceptual loss와 SSIM loss는 실험했지만 성능 향상이 없었다. **4. 파이프라인 단계** - **Stage 1 (Garment Transformation)**: RGB 스켈톤과 원본 의상 이미지를 조건으로 입력, 자세에 맞게 의상을 변형한다. 변형된 의상은 자세에 정확히 맞는 실루엣을 가진다. - **Stage 2 (Garment Stitching)**: 변형 의상, 모델 바디(의상 제외), RGB 스켈톤을 입력으로 받아 스티칭한다. 여기서는 의상이 어느 각도로 놓여도 강인하게 처리한다. - **Stage 3 (Inpainting)**: 스티칭 결과에 남은 빈 공간·불규칙 구멍을 차이 마스크와 함께 입력해 인페인팅한다. - **Stage 4 (Post‑processing)**: 머리 부분을 다시 합성해 최종 이미지를 완성한다. **5. 실험 및 결과** DeepFashion 데이터셋을 사용해 학습·평가하였다. 평가 지표는 SSIM과 Inception Score이며, Poly‑GAN은 기존 VTON(예: VITON, CP‑VTON) 대비 각각 0.03~0.05 높은 SSIM, 0.2~0.3 높은 IS를 기록했다. 특히 의상이 크게 회전하거나 팔이 몸을 가리는 경우에도 색 번짐 없이 자연스러운 결과를 얻었다. 또한, 의상 방향이 임의로 변해도 스티칭 단계에서 큰 성능 저하가 없었다. **6. 기여 및 한계** - 다중 조건을 모든 인코더 레이어에 지속적으로 주입하는 새로운 설계 제시. - 코스 레이어 스킵 연결을 통해 전역 형태와 미세 디테일을 균형 있게 전달. - 하나의 네트워크로 변형·스티칭·인페인팅을 동시에 수행, 파이프라인 복잡도 감소. - 제한점으로는 고해상도(>256×256) 이미지에서 메모리 요구량이 크게 증가하고, 조건 입력이 많아질수록 학습 안정성이 떨어질 수 있다. 향후 경량화 및 멀티‑스케일 학습 전략이 필요하다. **7. 확장 가능성** Poly‑GAN의 구조는 패션 합성 외에도 이미지 정렬, 멀티‑모달 스티칭, 비정형 마스크 인페인팅 등 다양한 멀티‑컨디셔널 비전 작업에 적용 가능하다. 특히 의료 영상에서 여러 모달리티(CT, MRI)를 동시에 조건으로 넣어 변형·합성하는 데 활용될 수 있다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기