다중조건부 GAN을 이용한 패션 합성 혁신: Poly‑GAN

본 논문은 패션 합성(Fashion Synthesis) 분야에서 기존 3단계 파이프라인(포즈 정렬, 스티칭, 정제)을 하나의 통합 GAN 구조로 대체하는 **Poly‑GAN**을 제안한다. Poly‑GAN은 다중 입력(참조 의상 이미지, RGB 스켈톤, 세그멘테이션 마스크 등)을 받아 모든 인코더 레이어에 조건을 주입하고, 코스 레이어(4×4, 8×8, 16×16)에서 디코더로 스킵 연결을 수행한다. 이러한 설계는 조건 정보가 깊은 레이어까지 유지되게 하여, 자세 변형 시 의상의 형태와 텍스처가 정확히 따라가도록 만든다. **1. 배경 및 문제점** 패션 합성은 임의 자세의 모델에 원하는 의상을 자연스럽게 입히는 작업으로, 자세 변형, 셀프‑오클루전, 데이터 부족 등 여러 난관이 존재한다. 기존 VTON(Virtual Try‑On) 방법들은 포즈 정렬 네트워크, 스티칭 네트워크, 정제 네트워크를 각각 별도로 학습시켜 파이프라인을 구성한다. 이때 스티칭 단계에서 색 번짐, 블러, 누락된 영역 등이 발생한다. **2. Poly‑GAN 구조** - **Encoder**: 세 부분으로 구성된다. (a) Conv‑Module: 3개의 Conv‑ReLU 블록으로, 각 레이어마다 조건(예: RGB 스켈톤, 의상 이미지)을 3채널 Conv로 변환해 특징 맵에 합산한다. (b) ResNet‑Module: 표준 residual block을 사용해 깊은 특징을 학습한다. (c) Conv‑Norm‑Module: Conv‑+InstanceNorm‑+ReLU 블록으로, ResNet과 Conv‑Module에서 나온 특징을 결합해 정규화한다. - **Decoder**: ResNet 블록 뒤에 전치 합성곱(Transposed Conv)으로 업샘플링한다. 코스 레이어 스킵 연결을 통해 4×4, 8×8, 16×16 수준의 특징을 직접 전달, 세부 디테일과 전역 형태를 동시에 보존한다. - **Discriminator**: SRGAN(LEDIG 등)에서 차용한 PatchGAN 형태로, L2 기반 LS‑GAN 손실을 사용해 블러를 억제한다. **3. 손실 함수** 총 손실 L = L_adv + L_gan + L_id 로 구성된다. - L_adv: LS‑GAN 방식의 L2 손실, 블러 억제. - L_gan: 생성 이미지와 실제 라벨 간 L2 거리, GAN 목표. - L_id: L1 거리, 색·텍스처 보존. λ 파라미터(λ1~λ4)는 실험적으로 튜닝하였다. Perceptual loss와 SSIM loss는 실험했지만 성능 향상이 없었다. **4. 파이프라인 단계** - **Stage 1 (Garment Transformation)**: RGB 스켈톤과 원본 의상 이미지를 조건으로 입력, 자세에 맞게 의상을 변형한다. 변형된 의상은 자세에 정확히 맞는 실루엣을 가진다. - **Stage 2 (Garment Stitching)**: 변형 의상, 모델 바디(의상 제외), RGB 스켈톤을 입력으로 받아 스티칭한다. 여기서는 의상이 어느 각도로 놓여도 강인하게 처리한다. - **Stage 3 (Inpainting)**: 스티칭 결과에 남은 빈 공간·불규칙 구멍을 차이 마스크와 함께 입력해 인페인팅한다. - **Stage 4 (Post‑processing)**: 머리 부분을 다시 합성해 최종 이미지를 완성한다. **5. 실험 및 결과** DeepFashion 데이터셋을 사용해 학습·평가하였다. 평가 지표는 SSIM과 Inception Score이며, Poly‑GAN은 기존 VTON(예: VITON, CP‑VTON) 대비 각각 0.03~0.05 높은 SSIM, 0.2~0.3 높은 IS를 기록했다. 특히 의상이 크게 회전하거나 팔이 몸을 가리는 경우에도 색 번짐 없이 자연스러운 결과를 얻었다. 또한, 의상 방향이 임의로 변해도 스티칭 단계에서 큰 성능 저하가 없었다. **6. 기여 및 한계** - 다중 조건을 모든 인코더 레이어에 지속적으로 주입하는 새로운 설계 제시. - 코스 레이어 스킵 연결을 통해 전역 형태와 미세 디테일을 균형 있게 전달. - 하나의 네트워크로 변형·스티칭·인페인팅을 동시에 수행, 파이프라인 복잡도 감소. - 제한점으로는 고해상도(>256×256) 이미지에서 메모리 요구량이 크게 증가하고, 조건 입력이 많아질수록 학습 안정성이 떨어질 수 있다. 향후 경량화 및 멀티‑스케일 학습 전략이 필요하다. **7. 확장 가능성** Poly‑GAN의 구조는 패션 합성 외에도 이미지 정렬, 멀티‑모달 스티칭, 비정형 마스크 인페인팅 등 다양한 멀티‑컨디셔널 비전 작업에 적용 가능하다. 특히 의료 영상에서 여러 모달리티(CT, MRI)를 동시에 조건으로 넣어 변형·합성하는 데 활용될 수 있다.

다중조건부 GAN을 이용한 패션 합성 혁신: Poly‑GAN

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기