FusionEdit: 훈련 없이 텍스트 기반 이미지 편집을 위한 의미 융합과 어텐션 조절

FusionEdit: 훈련 없이 텍스트 기반 이미지 편집을 위한 의미 융합과 어텐션 조절
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

FusionEdit은 텍스트 프롬프트 간 의미 차이를 이용해 자동으로 편집 영역을 탐지하고, 거리‑인식 잠재 융합과 총변동 손실로 부드러운 소프트 마스크를 생성한다. 또한 DiT 어텐션 레이어에 AdaIN 기반의 Disparity‑Aware Attention Modulation(DAM)을 삽입해 편집 영역에 전역 스타일 통계를 주입함으로써 경계 아티팩트를 최소화하고 전반적인 일관성을 유지한다. 훈련 없이도 기존 최첨단 방법들을 능가한다.

상세 분석

FusionEdit은 텍스트‑조건부 이미지 편집에서 “어디를 편집할 것인가”와 “어떻게 편집할 것인가”라는 두 핵심 문제를 동시에 해결한다. 먼저, 소스와 타깃 프롬프트를 각각 조건화한 정제 흐름 모델(Flux)의 속도장(vθ)을 동일한 노이즈 레벨 T′에서 비교해 L2 거리 기반 의미 불일치 맵 S를 만든다. 이 맵은 의미 변화가 큰 영역을 자연스럽게 강조한다. 픽셀‑단위 임계값 대신 비중첩 패치를 이용해 평균 불일치를 계산하고, 최대 불일치 패치를 시작점으로 인접 패치를 유사도 기준으로 병합해 연속적인 영역 마스크 M_R을 얻는다. 이렇게 얻은 이진 마스크는 경계가 급격히 변하므로, 거리‑인식 함수를 적용해 D(i,j)≤d_max 구역에 sigmoid 형태의 전이 함수를 씌워 소프트 마스크 M_S를 만든다. M_S는 편집 영역과 보존 영역 사이에 부드러운 전이 밴드를 제공한다.

잠재 융합 단계에서는 시간 t의 중간 잠재 X_mid^t와 원본 X_src를 M_S로 가중합해 X_M^t = M_S⊙X_mid^t + (1−M_S)⊙X_src 로 결합한다. 경계 부근의 급격한 변화는 총변동(TV) 손실 L_TV = ∑_Ωb‖∇X_M^t‖² + λ‖X_M^t−ĤX_M^t‖² 로 정규화해 공간적 매끄러움을 강제한다.

다음으로 제안된 Disparity‑Aware Attention Modulation(DAM)은 마스크된 편집 흐름의 Value 텐서 V_l와 마스크 없이 진행되는 참조 흐름의 Value 텐서 V_r^l을 AdaIN으로 결합한다. AdaIN은 V_r^l의 채널 평균·표준편차를 V_l에 적용해 전역 스타일 통계를 전달하고, α·AdaIN(V_l,V_r^l)+(1−α)·V_l 형태로 가중합한다. 여기서 α는 평균 의미 불일치 ¯Δ와 시간 t에 따라 동적으로 조정되는 함수이며, 큰 의미 변화일수록 α를 낮춰 과도한 스타일 주입을 방지한다. 이 과정은 마스크 경계에서 손실될 수 있는 전역 컨텍스트를 복구하면서도 지역 어텐션 맵은 유지한다.

실험에서는 PIE‑Bench 700 이미지와 다양한 편집 시나리오를 사용해 CLIP‑T, PSNR, LPIPS, SSIM 등 다중 지표로 평가했으며, FusionEdit은 기존 바이너리 마스크 기반 방법들보다 편집 정확도와 배경 보존 모두에서 우수한 성능을 보였다. 사용자 조사에서도 가장 높은 선호도를 얻었다. Ablation 연구는 소프트 마스크와 DAM 각각이 성능 향상에 기여함을 확인한다. 전체적으로 의미 기반 영역 탐지, 거리‑인식 소프트 마스크, TV 정규화, 그리고 AdaIN 기반 전역 통계 주입이라는 네 가지 핵심 설계가 훈련‑프리 텍스트 이미지 편집의 품질을 크게 끌어올렸다.


댓글 및 학술 토론

Loading comments...

의견 남기기