참조 기반 인스턴스 편집을 위한 일반화 가능한 프레임워크 GENIE
초록
GENIE는 공간 정렬, 적응형 잔차 스케일링, 점진적 어텐션 융합이라는 세 가지 모듈을 통해 참조 이미지의 내재적 외관과 외부 속성을 명확히 분리한다. 이를 통해 AnyInsertion 데이터셋에서 기존 방법보다 높은 PSNR·SSIM·LPIPS·FID 등 전반적인 성능을 달성한다.
상세 분석
GENIE는 참조 기반 인스턴스 편집에서 가장 큰 장애물인 ‘semantic entanglement’를 해결하기 위해 설계된 삼중 구조 프레임워크이다. 첫 번째 모듈인 Spatial Alignment Module(SAM)은 입력 참조 특징 맵에 2D 어핀 변환을 학습시켜 포즈·스케일·위치 불일치를 정규화한다. 이 과정은 f_loc이라는 경량 로컬라이제이션 네트워크가 예측한 변환 행렬을 통해 차별화 가능한 워핑을 수행함으로써, 이후 단계에서 외부 속성에 의해 발생하는 잡음을 최소화한다. 두 번째 모듈인 Adaptive Residual Scaling Module(ARSM)은 참조 특징 F_r와 목표 특징 F_t를 채널 차원으로 결합한 뒤, 작은 컨볼루션 블록 f_scale이 스케일 맵 α를 예측한다. tanh 함수를 이용해 α를 (‑1,1) 범위로 제한하고, (1+α)⊙F_r 형태의 잔차 스케일링을 적용함으로써, 양의 α는 내재적 텍스처·색상 정보를 증폭하고 음의 α는 포즈·조명·배경 등 외부 요인을 억제한다. 이 설계는 연속적인 강화·억제 조절을 가능하게 하여, 기존 방법이 겪는 ‘appearance leakage’를 근본적으로 차단한다. 세 번째 모듈인 Progressive Attention Fusion(PAF)은 구조 어텐션, 시너지 어텐션, 외관 어텐션의 3단계 흐름으로 구성된다. 구조 어텐션은 목표 U‑Net의 중간 특징 F_t만을 이용해 공간적 레이아웃을 안정화하고, 시너지 어텐션은 정렬·스케일링된 F′_r와 F_t를 결합해 하이브리드 토큰을 만든 뒤 자체 어텐션을 적용해 구조와 외관 사이의 잠재적 연관성을 탐색한다. 마지막 외관 어텐션은 구조 쿼리를 사용해 하이브리드 토큰에서 필요한 텍스처를 선택적으로 추출, 최종 출력 F_out에 동적 가중치(β,γ,λ)로 융합한다. 이 단계적 어텐션 설계는 ‘먼저 구조를 고정하고, 그 다음 외관을 채우는’ 직관에 부합하며, 복잡한 배경·조명 변화에도 일관된 결과를 제공한다. 실험에서는 AnyInsertion 데이터셋의 Object, Garment, Person 세 카테고드에 대해 PSNR이 2 dB 이상, FID가 7~16점 감소하는 등 전반적인 품질이 크게 향상되었으며, 특히 CLIP·DINO·DreamSim 등 의미적 일관성을 측정하는 지표에서도 최고 수준을 기록했다. Ablation 연구는 SAM이 사람 영역에서 FID를 124→93으로 크게 낮추고, PAF가 Garment에서 PSNR을 22.21→23.80으로 끌어올리며, ARSM이 Object에서 FID를 70.12→68.93으로 개선함을 보여준다. 또한 훈련 전략 실험에서 Ref‑U‑Net과 IP‑Adapter를 고정하고 Target‑U‑Net만 미세조정하는 방식이 가장 안정적인 성능을 제공한다는 점도 확인되었다. 전체적으로 GENIE는 기존 diffusion‑based 편집 모델이 갖는 ‘내재·외재 혼합’ 문제를 모듈화된 설계와 명시적 스케일링·어텐션 메커니즘으로 해결함으로써, 고해상도·다양한 도메인에 걸친 범용 편집 프레임워크로서의 가능성을 입증한다.
댓글 및 학술 토론
Loading comments...
의견 남기기