CAPTAIN 텍스트 이미지 확산 모델의 기억 완화를 위한 의미적 특징 주입

읽는 시간: 2 분
...

📝 원문 정보

  • Title: CAPTAIN: Semantic Feature Injection for Memorization Mitigation in Text-to-Image Diffusion Models
  • ArXiv ID: 2512.10655
  • 발행일: 2025-12-11
  • 저자: Tong Zhang, Carlos Hinojosa, Bernard Ghanem

📝 초록 (Abstract)

확산 모델은 학습 데이터에 포함된 이미지를 무의식적으로 재생산할 수 있어 개인정보 유출 및 저작권 침해 위험이 커지고 있다. 기존의 추론 단계 완화 기법은 주로 classifier‑free guidance(CFG)를 조작하거나 프롬프트 임베딩에 잡음을 가하는 방식이었지만, 기억을 억제하면서도 프롬프트와의 정렬성을 유지하는 데 한계가 있었다. 본 논문은 훈련 없이 적용 가능한 프레임워크 CAPTAIN을 제안한다. CAPTAIN은 디노이징 과정에서 잠재 특징을 직접 변형한다. 첫 단계에서는 주파수 기반 잡음 초기화를 통해 초기 디노이징 단계에서 기억된 패턴이 재현되는 경향을 감소시킨다. 이후 최적의 디노이징 타임스텝을 탐색하고, 기억된 영역을 국소화한다. 마지막으로, 비기억(reference) 이미지에서 추출한 의미적으로 일치하는 특징을 해당 잠재 영역에 주입함으로써 기억을 억제하면서도 프롬프트 충실도와 시각적 품질을 유지한다. 실험 결과 CAPTAIN은 CFG 기반 베이스라인에 비해 기억 재현을 크게 감소시키면서도 프롬프트 정렬성을 크게 손상시키지 않음을 확인하였다.

💡 논문 핵심 해설 (Deep Analysis)

Figure 1
CAPTAIN 논문은 텍스트‑투‑이미지 확산 모델에서 발생하는 ‘메모리’ 문제, 즉 모델이 학습 데이터에 포함된 특정 이미지나 그 일부를 그대로 재생산하는 현상을 완화하기 위한 새로운 접근법을 제시한다. 기존 연구들은 주로 추론 단계에서 classifier‑free guidance(CFG)의 스케일을 조정하거나, 프롬프트 임베딩에 무작위 잡음을 추가하는 방식으로 기억을 억제하려 했다. 이러한 방법들은 기억을 어느 정도 감소시키지만, CFG 강도를 낮추면 이미지가 프롬프트와 어긋나거나 품질이 저하되는 trade‑off가 발생한다는 점이 큰 한계다.

CAPTAIN은 이러한 한계를 ‘잠재 공간 직접 변형’이라는 전혀 다른 차원에서 해결한다. 첫 번째 핵심 아이디어는 주파수 기반 잡음 초기화이다. 디노이징 과정은 고주파 잡음이 점차 낮은 주파수로 변환되는 역동적인 과정인데, 초기 단계에서 고주파 성분을 강화하면 모델이 학습 데이터의 세부적인 패턴을 그대로 복원하려는 경향을 억제한다. 이는 기존의 무작위 잡음보다 구조화된 잡음이 기억 억제에 더 효과적이라는 가설에 기반한다.

두 번째 단계는 최적 타임스텝 탐색 및 기억 영역 국소화이다. 모든 디노이징…

📄 논문 본문 발췌 (Translation)

...(본문 내용이 길어 생략되었습니다. 사이트에서 전문을 확인해 주세요.)

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키