CAPTAIN 텍스트 이미지 확산 모델의 기억 완화를 위한 의미적 특징 주입
읽는 시간: 2 분
...
📝 원문 정보
- Title: CAPTAIN: Semantic Feature Injection for Memorization Mitigation in Text-to-Image Diffusion Models
- ArXiv ID: 2512.10655
- 발행일: 2025-12-11
- 저자: Tong Zhang, Carlos Hinojosa, Bernard Ghanem
📝 초록 (Abstract)
확산 모델은 학습 데이터에 포함된 이미지를 무의식적으로 재생산할 수 있어 개인정보 유출 및 저작권 침해 위험이 커지고 있다. 기존의 추론 단계 완화 기법은 주로 classifier‑free guidance(CFG)를 조작하거나 프롬프트 임베딩에 잡음을 가하는 방식이었지만, 기억을 억제하면서도 프롬프트와의 정렬성을 유지하는 데 한계가 있었다. 본 논문은 훈련 없이 적용 가능한 프레임워크 CAPTAIN을 제안한다. CAPTAIN은 디노이징 과정에서 잠재 특징을 직접 변형한다. 첫 단계에서는 주파수 기반 잡음 초기화를 통해 초기 디노이징 단계에서 기억된 패턴이 재현되는 경향을 감소시킨다. 이후 최적의 디노이징 타임스텝을 탐색하고, 기억된 영역을 국소화한다. 마지막으로, 비기억(reference) 이미지에서 추출한 의미적으로 일치하는 특징을 해당 잠재 영역에 주입함으로써 기억을 억제하면서도 프롬프트 충실도와 시각적 품질을 유지한다. 실험 결과 CAPTAIN은 CFG 기반 베이스라인에 비해 기억 재현을 크게 감소시키면서도 프롬프트 정렬성을 크게 손상시키지 않음을 확인하였다.💡 논문 핵심 해설 (Deep Analysis)

CAPTAIN은 이러한 한계를 ‘잠재 공간 직접 변형’이라는 전혀 다른 차원에서 해결한다. 첫 번째 핵심 아이디어는 주파수 기반 잡음 초기화이다. 디노이징 과정은 고주파 잡음이 점차 낮은 주파수로 변환되는 역동적인 과정인데, 초기 단계에서 고주파 성분을 강화하면 모델이 학습 데이터의 세부적인 패턴을 그대로 복원하려는 경향을 억제한다. 이는 기존의 무작위 잡음보다 구조화된 잡음이 기억 억제에 더 효과적이라는 가설에 기반한다.
두 번째 단계는 최적 타임스텝 탐색 및 기억 영역 국소화이다. 모든 디노이징…