두 차분한 끝과 격렬한 중간: 확산 모델 기억 메커니즘의 기하학적 시각
초록
본 논문은 확산 모델에서 훈련 데이터가 언제, 어떻게 기억되는지를 Gaussian 쉘의 커버리지와 사후 분포의 집중도라는 두 기하학적 요소를 통해 세 구간으로 나누어 분석한다. 중간 노이즈 구간이 기억 위험이 가장 높은 “위험 지대”이며, 양 끝 구간은 각각 데이터 커버리지가 부족하거나 사후가 퍼져 있어 기억을 억제한다. 저자는 이 위험 구간에 대한 기하학적 조건을 제시하고, 선택적 언트레이닝을 통한 실용적 완화 방법을 제안한다.
상세 분석
논문은 확산 모델의 학습 손실을 “노이즈 레벨별 최적 디노이저”와 “경험적 최적 디노이저”라는 두 함수로 분해하고, 이들 사이의 차이가 기억(memorizaton)과 일반화(generalization)를 결정한다고 가정한다. 핵심 변수는 (1) posterior weight Wσ(D) — 노이즈 레벨 σ에서 가장 큰 사후 확률을 갖는 훈련 샘플의 기대값, (2) Gaussian shell coverage Cσ(D) — 노이즈가 추가된 훈련 샘플이 전체 데이터 공간을 얼마나 균일하게 뒤덮는가를 나타낸다. 작은 σ에서는 Cσ가 매우 낮아 훈련 샘플이 고밀도로 모여 있지 않으므로 모델이 훈련 데이터 전체를 관찰하지 못하고, 따라서 기억이 자연스럽게 억제된다. 반대로 큰 σ에서는 사후 가중치가 거의 평평해져 Wσ가 낮아지고, 디노이징이 거의 선형 가우시안 변환에 수렴한다는 정리(near‑linear Gaussian denoising)를 통해 모델이 데이터의 세부 구조를 잃어버리게 된다. 이 두 극단에서는 각각 “커버리지 부족”과 “사후 분산 확대”라는 서로 다른 메커니즘으로 기억이 차단된다.
중간 σ 구간에서는 Cσ가 충분히 커서 훈련 샘플이 노이즈 쉘을 꽉 채우지만, 아직 σ가 충분히 커서 사후 가중치가 완전히 평평해지지는 않는다. 따라서 특정 샘플에 대한 posterior weight가 다른 샘플보다 현저히 크게 나타날 가능성이 높아지고, Wσ가 급격히 상승한다. 이때 경험적 최적 디노이저는 거의 최근접 이웃(NN) 형태가 되며, 학습된 디노이저가 이를 그대로 모방하면 기억이 발생한다. 저자는 이 현상을 “wild middle”이라 명명하고, 위험 구간을 σ∈
댓글 및 학술 토론
Loading comments...
의견 남기기