실시간 제로샷 이미지 조작을 위한 ZM Net

본 논문은 “제로샷 이미지 조작”이라는 새로운 문제 정의에서 출발한다. 기존 이미지 변환 모델은 특정 스타일이나 속성에 대해 별도의 네트워크를 학습하거나, 다중 스타일을 하나의 네트워크에 압축하더라도 새로운 스타일에 대해 재학습이 필요했다. 이러한 한계는 실시간 서비스, 모바일 디바이스, 그리고 사용자가 자유롭게 정의하는 다양한 가이드 신호(예: 개인 사진, 텍스트 설명, 음성 명령 등)와 맞물려 실용성을 크게 저해한다. 이를 해결하기 위해 저자들은 ZM-Net(Zero-shot Manipulation Net)이라는 두 모듈 기반 아키텍처를 제안한다. 첫 번째 모듈인 파라미터 네트워크(PNet)는 가이드 신호 Xₛ를 입력받아 동적으로 변환 네트워크(TNet)의 핵심 파라미터인 인스턴스 정규화 스케일 γ와 시프트 β를 생성한다. 두 번째 모듈인 이미지 변환 네트워크(TNet)는 일반적인 컨볼루션 레이어와 동적 인스턴스 정규화(DIN)를 결합해, 입력 콘텐츠 이미지 X_c를 변환한다. DIN은 기존 인스턴스 정규화에 γ·β를 곱해주어, 가이드 신호에 따라 스타일이나 속성을 조절한다. PNet의 설계는 두 가지 형태가 있다. Serial PNet은 깊은 CNN 구조를 사용해 가이드 이미지의 다층 피처 ψₗ(Xₛ)를 추출하고, 이를 선형 변환을 통해 각 레이어별 γₗ, βₗ를 만든다. 이는 고차원 피처를 효율적으로 활용하면서도 TNet과 비대칭적인 연결을 유지한다. Parallel PNet은 레이어마다 독립적인 얕은 네트워크를 두어 ψₗ을 직접 생성한다. 실험에서는 Serial 구조가 더 높은 품질을 보였으며, Parallel 구조는 파라미터 효율성 측면에서 제한적이었다. 학습 과정은 기존 스타일 전이에서 사용되는 VGG 기반 손실 함수를 그대로 차용한다. 콘텐츠 손실 L_c는 변환 이미지와 원본 콘텐츠 이미지의 VGG 피처 차이이며, 스타일 손실 L_s는 변환 이미지와 가이드 스타일 이미지의 Gram matrix 차이이다. 전체 손실 L = λ_c L_c + λ_s L_s를 최소화하면서 PNet과 TNet을 동시에 최적화한다. 대규모 실험에서는 984개의 시드 스타일을 기반으로 23 307개의 스타일 이미지를 자동으로 수집·정제한 데이터셋을 구축하였다. 이 데이터셋으로 학습한 ZM-Net은 훈련에 포함되지 않은 새로운 스타일에 대해서도 높은 품질의 결과를 생성한다. 정량적 평가에서는 기존의 단일 스타일 전용 네트워크(FST, OST)와 비교해 스타일 손실이 비슷하거나 약간 낮으며, 정성적 평가에서는 색감·질감·구조적 일관성 모두에서 경쟁력을 보였다. 추가 실험으로 텍스트 기반 속성 조작을 수행하였다. 단어 임베딩을 가이드 신호로 사용해 ‘아침’, ‘오후’, ‘밤’ 등 시간대 속성을 이미지에 반영했으며, 복합 속성(예: 0.5 * ‘아침’ + 0.5 * ‘밤’)도 자연스럽게 합성했다. 이는 PNet이 이미지 외의 모달리티에도 적용 가능함을 증명한다. 성능 측면에서 ZM-Net은 1080Ti GPU 환경에서 256 × 256 해상도 이미지를 30 ms 이내에 처리한다. 이는 기존 최적화 기반 방법이 수초에서 수분이 걸리던 것에 비해 2~3 orders of magnitude 빠른 속도다. 또한 하나의 모델에 수만 개의 스타일을 내장함으로써 메모리 사용량도 크게 절감한다. 결론적으로, ZM-Net은 (1) 제로샷 방식으로 새로운 가이드 신호에 즉시 대응, (2) 실시간 추론 속도로 모바일·AR·VR 등 실시간 응용에 적합, (3) 이미지·텍스트·히스토그램 등 다양한 모달리티를 통합 처리할 수 있는 범용 프레임워크라는 세 가지 주요 장점을 제공한다. 향후 연구에서는 비디오 프레임 간 일관성 보장, 고해상도 이미지 처리, 그리고 보다 복잡한 언어·음성 가이드 신호를 다루는 확장이 기대된다.

실시간 제로샷 이미지 조작을 위한 ZM Net

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기