선형 확산 모델의 일반화 역학: 계층적 공분산 스펙트럼과 샘플 복잡도
초록
본 논문은 선형 신경망을 이용한 확산 모델을 분석하여, 데이터 공분산 스펙트럼이 파워‑러프 형태로 계층적일 때 샘플 수 N과 차원 d 사이의 관계가 일반화에 미치는 영향을 규명한다. N < d 영역에서는 공분산 추정의 영공간(nullspace) 때문에 훈련 손실과 테스트 손실 사이에 큰 격차가 발생하지만, 계층적 스펙트럼, 정규화, 조기 중단이 과적합을 완화한다. N > d 영역에서는 KL 발산이 d/N 비율에 따라 선형적으로 감소하며, 데이터 분포의 구체적 형태와는 무관함을 보인다.
상세 분석
논문은 먼저 실제 이미지 데이터(CelebA, MNIST, CIFAR‑10)의 공분산 고유값이 λₙ ∝ n^{‑k} 형태의 파워‑러프 분포를 따름을 실험적으로 확인한다. 여기서 k는 계층성 정도를 나타내며, k가 클수록 상위 몇 개 고유값이 전체 변동을 지배한다. 이러한 관찰을 바탕으로, 데이터가 다변량 정규분포 ρ = N(μ, Σ)라고 가정하고, 선형 확산 모델의 denoiser를 시간‑별 선형 매핑으로 제한한다. 모델 파라미터는 L2 정규화 γₜ와 함께 최소화되며, 학습 결과는 경험 공분산 Σ̂와 평균 μ̂에 전적으로 의존한다.
핵심 식(4)은 훈련 손실 R과 테스트 손실 L_test 사이의 차이를 고유값 λ̂ₙ와 정규화 γₜ에 대한 함수로 전개한다. N < d이면 Σ̂의 영공간 차원은 최소 N이므로, λ̂ₙ이 0인 방향이 다수 존재해 분모가 작아져 L_test − R가 크게 폭발한다. 이때 계층적 스펙트럼은 큰 λₙ을 가진 몇몇 방향을 빠르게 학습하게 하여, 영공간이 실제 데이터 변동이 작은 방향에 해당하면 과적합 위험이 감소한다. 정규화 γₜ는 분모에 추가되어 영공간 효과를 완화하고, 최적 γₜ는 N과 k에 따라 감소한다는 분석 결과가 도출된다.
복수의 샘플에 대한 평균 KL 발산 D_KL(ρ_N‖ρ) 를 replica 방법으로 계산하면 식(7)과 (8)으로 요약된다. 여기서 q는 Σ의 고유값과 N, 정규화 c에 의해 정의되는 스칼라이며, q가 작을수록 D_KL이 감소한다. 특히 q ≤ (d / (N · \barλ + c))·Tr
댓글 및 학술 토론
Loading comments...
의견 남기기