확산 모델의 오류 전파와 모델 붕괴 이론적 분석

** 본 논문은 합성 데이터와 실제 데이터를 혼합해 반복적으로 학습하는 확산 모델에서 발생하는 오류 전파와 모델 붕괴 현상을 이론적으로 규명한다. χ²‑다이버전스를 이용해 한 세대 내 오류와 전체 세대에 걸친 누적 오류를 상한·하한으로 제시하고, 신선 데이터 비율 α가 클수록 오류가 기하급수적으로 감쇠됨을 수식적으로 증명한다. 실험을 통해 이론적 경계가 실제 이미지와 합성 데이터에서도 유효함을 확인한다. **

저자: Nail B. Khelifa, Richard E. Turner, Ramji Venkataramanan

확산 모델의 오류 전파와 모델 붕괴 이론적 분석
** 본 연구는 최근 생성 AI에서 합성 데이터를 활용한 자기‑학습이 모델 성능 저하와 분포 붕괴를 초래한다는 현상을 이론적으로 분석한다. 특히 점수 기반 확산 모델을 대상으로, 매 세대마다 실제 데이터와 현재 모델이 생성한 합성 데이터를 섞어 학습하는 “리프레시” 프로세스를 수식화한다. 1. **문제 설정** - 실제 데이터 분포를 \(p_{\text{data}}\)라 하고, i번째 세대 모델의 분포를 \(\hat p_i\)라 정의한다. - 각 세대 i≥1에서 학습에 사용되는 데이터는 비율 \(\alpha\)의 실제 샘플과 \((1-\alpha)\)의 합성 샘플을 무구별하게 섞은 혼합 분포 \(q_i = \alpha p_{\text{data}} + (1-\alpha)\hat p_i\)이다. - 스코어 네트워크는 \(q_i\)에서 샘플을 뽑아 점수 매칭을 수행하고, 이를 역 SDE에 삽입해 다음 세대 \(\hat p_{i+1}\)를 생성한다. 2. **오차 정의와 측정** - 스코어 추정 오차 \(e_i(x,t)=s_{\theta_i}(x,t)-s_i^\star(x,t)\)를 도입하고, 경로 전체에 대한 제곱 적분을 에너지 \(\varepsilon_i^{\star,2}\)와 \(\hat\varepsilon_i^2\)로 정의한다. - 두 종류의 다이버전스를 사용한다. * **누적 다이버전스** \(D_i = \chi^2(\hat p_i \,\|\, p_{\text{data}})\) – 모델과 실제 분포 사이의 전체 차이. * **세대 내 다이버전스** \(I_i = \chi^2(\hat p_{i+1} \,\|\, q_i)\) – 한 학습 단계에서 발생하는 오류. 3. **주요 이론적 결과** - **상한** (Proposition 3.1): Girsanov 정리와 데이터 처리 불등식을 이용해 \(I_i \le \frac12 \hat\varepsilon_i^2\) 를 얻는다. 이는 스코어 오류 에너지가 직접적으로 샘플링 오류를 제한함을 의미한다. - **하한** (Proposition 3.3): 오류가 관측 가능한 정도를 나타내는 계수 \(\eta_i\)와 스코어 오류 에너지의 곱으로 \(I_i \gtrsim \eta_i\,\varepsilon_i^{\star,2}\) 를 증명한다. 이는 오류가 충분히 큰 경우 모델이 반드시 차이를 보인다는 보장을 제공한다. - **동등성** (Theorem 3.4): 상한·하한을 결합해 \(I_i\)가 \(\varepsilon_i^{\star,2}\)와 상수배 관계임을 보인다. 따라서 한 세대 내 오류는 스코어 추정 정확도에 거의 일대일 대응한다. - **장기 누적 거동** (Proposition 4.1, Theorem 4.2): * 오류 에너지 합 \(\sum_k \varepsilon_k^{\star,2}\)가 무한하면 \(D_N\)은 0으로 수렴하지 못하고, 모델 붕괴가 불가피하다. * 합이 유한하면 \(D_N\)은 일정 상수 이하로 유지된다. * 구체적으로, \

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기