시각적 분리형 디퓨전 오토인코더를 이용한 대규모 반사실 생성
초록
본 논문은 고정된 파운데이션 모델의 임베딩을 해석 가능한 분리형 사전학습 사전(dictionary)으로 분해하고, 이를 디퓨전 오토인코더와 결합해 gradient‑free 방식으로 다수의 다양하고 의미론적으로 분리된 반사실 이미지를 빠르게 생성하는 DiDAE 프레임워크를 제안한다. 또한, 이러한 반사실을 활용한 Counterfactual Knowledge Distillation(CFKD) 기법을 확장해 스푸리어스 상관관계 완화와 다운스트림 성능 향상을 입증한다.
상세 분석
DiDAE는 두 단계로 구성된다. 첫 번째 단계에서는 사전학습된 파운데이션 모델 Φ(·) (예: CLIP)의 이미지 임베딩 zₛₑₘ=Φ(x)를 고정하고, 이를 해석 가능한 방향으로 분해하는 사전(dictionary) Ω∈ℝ^{D×D}를 학습한다. Ω는 선형이든 비선형이든 상관없이 임베딩을 의미론적 컴포넌트 c로 변환하고, 역변환 Ω^{-1}을 통해 편집된 임베딩 z’ₛₑₘ을 복원한다. 이때 컴포넌트는 “금발 머리”, “남성”, “메이크업” 등 인간이 직관적으로 이해할 수 있는 속성에 대응하도록 설계된다.
두 번째 단계에서는 디퓨전 오토인코더 D_θ를 이용해 편집된 임베딩을 이미지 공간으로 복원한다. 기존 VCE(Visual Counterfactual Explainer)들은 목표 클래스에 대한 손실을 최소화하기 위해 수백 번의 역전파와 노이즈 스케줄링을 수행해야 했지만, DiDAE는 단일 feed‑forward 단계만으로 z’ₛₑₘ과 원본 이미지의 고주파 정보를 담은 x_T를 입력해 ˆx=D_θ(z’ₛₑₘ, x_T)를 출력한다. 따라서 생성 속도가 기존 방법보다 10~100배 가량 빨라진다.
알고리즘 1은 특정 컴포넌트를 원점에 대해 부호를 반전시키는 “Component Reflection”을 수행한다. 이는 c_k → -c_k 로 단순히 해당 속성을 제거하거나 반대로 만들면서 다른 속성은 그대로 유지한다는 강력한 의미론적 격리를 제공한다. 알고리즘 2는 선형 프로브 P를 통해 다운스트림 분류기 f의 결정 경계 w^Tz=0을 추정하고, 각 컴포넌트 v_k에 대해 w^T(zₛₑₘ+αv_k) = -w^Tzₛₑₘ 를 만족하는 α를 해석적으로 계산한다. 이를 “Boundary Inversion”이라 부르며, 특정 속성을 바꾸어도 분류 결과가 정확히 반전되도록 보장한다.
DiDAE 기반의 모델 교정 전략은 두 가지가 있다. 첫 번째는 “Projection”으로, 식 (2)와 같이 스푸리어스 방향 d_spur에 대한 성분을 제거해 임베딩을 정규화한다. 이는 파운데이션 모델 자체를 재학습 없이도 편향을 억제할 수 있다. 두 번째는 CFKD와 결합한 “DiDAE‑CFKD”이다. 여기서는 DiDAE가 자동으로 라벨링된 반사실 데이터를 대량 생성하고, 이를 교사(teacher) 역할을 하는 사전 라벨링된 클러스터와 결합해 학생(student) 모델을 재학습한다. 라벨링 비용은 N개의 컴포넌트에 대해 한 번만 수행하면 되므로, 기존 CFKD가 요구하던 N·M·K 라벨링 대비 크게 절감된다.
실험에서는 합성 Square 데이터와 CelebA‑Blond 데이터에 98% 수준의 스푸리어스 상관관계를 인위적으로 주입했다. DiDAE‑CFKD는 기존 gradient‑based VCE(ACE, DIME 등) 대비 반사실 생성 시간이 평균 0.12초(대비 3.8초)로 단축됐으며, 테스트 정확도는 스푸리어스 속성에 의존하던 베이스라인 대비 12~18%p 상승했다. 특히 CelebA‑Blond에서는 “남성” 속성을 완전히 무시하고 “금발 머리”만을 기반으로 분류하도록 성공적으로 교정했다.
전반적으로 DiDAE는 (1) 파운데이션 모델의 풍부한 의미론적 정보를 보존하면서도 편집 가능하게 만든다, (2) gradient‑free, 해석 가능한 편집을 통해 대규모 반사실을 빠르게 생성한다, (3) 이러한 반사실을 활용한 CFKD 확장은 라벨링 비용을 최소화하면서 스푸리어스 학습을 효과적으로 억제한다는 점에서 기존 방법들을 크게 능가한다.
댓글 및 학술 토론
Loading comments...
의견 남기기