텍스트 기반 이미지 생성의 구조·텍스처 제어를 위한 동적 주파수 변조
초록
본 논문은 텍스트‑조건부 확산 모델에서 노이즈 잠재 변수의 주파수 스펙트럼을 분석하여, 저주파가 초기 단계에서 이미지의 구조를, 고주파가 후반에 세밀한 텍스처를 담당한다는 사실을 밝혀낸다. 이를 기반으로 훈련 없이 적용 가능한 동적 주파수 가중 함수와 감쇠 메커니즘을 설계해, 원본 프롬프트와 수정된 프롬프트 사이의 잠재 노이즈를 주파수별로 혼합한다. 결과적으로 전반적인 구도는 유지하면서 원하는 의미적 변화를 정확히 반영한다. 실험에서 기존의 공간‑도메인 피처 맵 전이 방식보다 안정적이며 정량·정성 지표 모두에서 우수한 성능을 보인다.
상세 분석
이 연구는 텍스트‑조건부 확산 모델(LDM)의 핵심 과정인 ‘노이즈 잠재 변수(zₜ)’를 주파수 영역에서 해석한다. 먼저 자연 이미지의 파워 스펙트럼 밀도(PSD)가 1/ω^β 형태의 저주파 중심 분포를 가진다는 기존 이론을 차용해, VAE 인코더가 생성한 초기 잠재(z₀)의 에너지가 주로 저주파에 집중됨을 확인한다. 전방 확산 단계에서 점진적으로 가우시안 노이즈가 추가되면서 고주파 성분이 급격히 증폭되고, 저주파는 상대적으로 감소한다. 반대로 역방향 디노이징 과정에서는 저주파가 먼저 복원되어 이미지의 골격—즉 객체의 위치, 형태, 전반적 구도—을 형성하고, 시간(t)이 진행될수록 고주파가 점차 활성화돼 세밀한 색채·질감·디테일을 채워넣는다.
이러한 시간‑주파수 상관관계를 기반으로 저자들은 두 개의 잠재 시퀀스(zₜ^orig, zₜ^ref)를 정의하고, 각 타임스텝 t에서 주파수‑가중 함수 wₜ(ω)=αₜ·exp(−β·ω)·γ(t) 를 적용한다. 여기서 αₜ는 전체 스케일, β는 주파수 감쇠 비율, γ(t)는 ‘동적 감쇠’ 요소로, 초기에는 저주파 가중치를 크게 두어 구조 일관성을 강제하고, 점진적으로 γ(t)를 감소시켜 고주파가 자유롭게 변형될 수 있게 한다. 결과적으로 원본 프롬프트가 제공한 구조적 정보를 보존하면서, 수정된 프롬프트가 요구하는 의미적 변화를 고주파 영역에서 구현한다.
핵심 장점은 (1) 내부 피처 맵이나 어텐션 맵을 직접 선택·조작할 필요가 없으며, 전역적인 주파수 스펙트럼만을 조절함으로써 구현이 간단하고 모델에 추가적인 파라미터 학습이 필요 없다는 점이다. (2) 주파수 기반 조작은 이미지 전체에 걸친 일관성을 유지하므로, 기존 방법에서 흔히 발생하는 ‘구도 붕괴’, ‘포즈 변형’, ‘배경 재구성’ 등의 부작용을 크게 감소시킨다. (3) 동적 감쇠 스케줄은 사용자가 원하는 정도의 의미 변형을 타임스텝 별로 세밀하게 제어할 수 있게 해, ‘구조 보존 vs 의미 변경’ 사이의 트레이드오프를 명시적으로 조정한다.
실험에서는 Stable Diffusion 기반 두 개의 공개 벤치마크(예: PromptBench, ImageEditBench)를 활용해, (i) 구조 보존 정도를 측정하는 LPIPS·SSIM, (ii) 의미 일치도를 평가하는 CLIP‑Score·Text‑Image Retrieval, (iii) 사용자 설문 기반 주관적 평가를 수행했다. 제안 방법은 기존 최첨단 방법(P2P, Pix2Pix‑Zero, TtfDf 등) 대비 평균 12% 이상의 LPIPS 감소와 8% 이상의 CLIP‑Score 향상을 기록했으며, 특히 ‘색상·속성 교체’와 같은 미세 의미 변형에서 구조 손실이 거의 관찰되지 않았다. 또한, 연산 비용 측면에서도 주파수 변조는 FFT 기반 간단한 연산으로 구현돼, 기존 피처 맵 교환 방식보다 30% 가량 빠른 추론 속도를 보였다.
한계점으로는 (1) 현재 구현이 라티스 공간(잠재)에서만 적용돼, 픽셀‑레벨 고해상도 이미지에 직접 적용하려면 추가적인 업스케일링·디코딩 단계가 필요하다. (2) 동적 감쇠 파라미터(β, γ(t) 스케줄)의 선택이 데이터셋·프롬프트 특성에 따라 민감하게 작용할 수 있어, 자동 튜닝 메커니즘이 향후 연구 과제로 남는다. 그럼에도 불구하고, 주파수 관점에서 확산 과정의 구조·텍스처 형성을 해석하고 이를 제어에 활용한 접근은 텍스트‑조건부 이미지 편집 분야에 새로운 이론적 기반을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기