인과 어댑터 텍스트‑투‑이미지 확산으로 정확한 반사실 이미지 생성

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

Causal‑Adapter는 고정된 텍스트‑투‑이미지 확산 모델에 구조적 인과 모델을 결합해, 속성에 대한 명시적 do‑intervention을 수행하면서도 이미지 정체성을 유지하는 반사실 이미지 생성 프레임워크이다. Prompt‑Aligned Injection과 Conditioned Token Contrastive loss라는 두 가지 정규화 기법을 도입해 속성 간 인과 관계를 정확히 반영하고 스퓨리어스 상관을 억제한다. CelebA와 ADNI 등에서 MAE·FID·LPIPS·CLD 등 다양한 지표에서 기존 방법들을 크게 앞선다.

상세 분석

Causal‑Adapter 논문은 최근 텍스트‑투‑이미지(diffusion) 모델이 고품질 이미지를 생성하는 장점을 그대로 활용하면서, 인과적 속성 편집이라는 새로운 요구를 충족시키기 위해 설계된 모듈형 접근법이다. 핵심 아이디어는 “고정된 백본(Stable‑Diffusion 등)을 그대로 두고, 별도의 어댑터를 통해 인과 변수와 텍스트 임베딩을 정렬한다”는 점이다. 이를 위해 저자들은 두 가지 정규화 전략을 제안한다.

첫 번째인 Prompt‑Aligned Injection(PAI)은 속성‑조건을 텍스트 토큰 임베딩에 직접 주입한다. 구체적으로, 사전 정의된 인과 그래프 G의 인접 행렬 A를 이용해 각 속성 y_i의 부모 변수들을 마스크하고, 비선형 함수 f_i(·)와 노이즈 u_i를 통해 y_î = f_i(A_i⊙Y; ω_i)+u_i 형태의 인과 메커니즘을 학습한다. 이렇게 얻어진 y_î은 텍스트 토큰 시퀀스에 삽입돼, 이미지‑텍스트 교차‑어텐션 단계에서 공간적 특징과 의미적 특징이 일치하도록 유도한다. 결과적으로 “age=young”과 같은 단일 속성 변형이 “beard”와 같은 종속 속성에도 일관되게 반영된다.

두 번째인 Conditioned Token Contrastive loss(CTC)는 토큰 수준에서 조건별 임베딩을 구분하도록 강제한다. 동일 이미지에 대해 서로 다른 do‑intervention을 적용했을 때, 해당 토큰들의 임베딩 거리는 멀어지게 하고, 비변경 토큰은 동일하게 유지하도록 contrastive margin을 설정한다. 이는 스퓨리어스 상관(예: “male → beard”이 아닌 경우에도 수염이 생기는 현상)을 억제하고, 속성 간 독립성을 강화한다.

모델 구조는 크게 네 부분으로 나뉜다. (1) 고정된 텍스트 인코더와 이미지 인코더, (2) 어댑터(ε_ψ)와 복제된 반노이즈 네트워크, (3) 인과 메커니즘 모듈, (4) 선택적 Attention Guidance(AG)이다. 어댑터는 기존 UNet의 중간 레이어에 residual 형태로 삽입돼, 텍스트‑이미지 교차‑어텐션 매트릭스 QK에 인과 신호를 더한다. 학습 시에는 기존 diffusion 손실 L_DM과 함께 NLL 기반 인과 메커니즘 손실 L_NLL, 그리고 CTC 손실 L_CTC를 가중합한다. 추론 단계에서는 원하는 속성에 대해 do‑intervention을 수행해 해당 토큰 임베딩을 교체하고, abducted된 외생 노이즈 z*_t를 이용해 DDIM 역전 과정을 진행한다. 필요 시 AG를 통해 특정 토큰의 어텐션 맵을 강화해 국소 편집을 정밀하게 제어한다.

실험에서는 합성 Pendulum 데이터와 실제 CelebA(인물 사진)·ADNI(뇌 MRI) 데이터셋을 사용했다. Pendulum에서는 속성(각도, 속도) 변환 시 MAE가 91% 감소했으며, CelebA에서는 나이·성별·수염·대머리 등 복합 인과 관계를 편집하면서 FID가 87% 감소, LPIPS가 86% 감소, CLD(Identity drift)도 4% 수준으로 최소화되었다. 특히 기존 Prompt‑only 기반 편집이 속성 간 얽힘으로 인해 비정상적인 변형을 일으키는 반면, Causal‑Adapter는 인과 그래프에 기반한 명시적 do‑intervention 덕분에 시각적 일관성과 정체성 보존을 동시에 달성한다.

이 논문의 주요 공헌은 (1) 고정된 대규모 diffusion 모델에 인과 어댑터를 삽입해 재학습 없이도 도메인 전이와 속성 편집을 가능하게 한 점, (2) PAI와 CTC라는 두 정규화 기법으로 인과적 속성 정렬과 스퓨리어스 상관 억제를 동시에 달성한 점, (3) 다양한 실세계 데이터에서 정량·정성 평가를 통해 기존 SOTA 방법들을 크게 앞선 실증적 증거를 제공한 점이다. 향후 연구는 자동 인과 그래프 추정, 다중 단계 복합 인터벤션, 그리고 텍스트‑투‑비디오 확산 모델에의 확장 가능성을 제시한다.

인과 어댑터 텍스트‑투‑이미지 확산으로 정확한 반사실 이미지 생성

초록

상세 분석

댓글 및 학술 토론

의견 남기기