“데이터 오염 속에서도 살아남는 생성 AI? ‑ 재귀 학습에서의 수렴 보장”
📝 Abstract
Generative Artificial Intelligence (AI), such as large language models (LLMs), has become a transformative force across science, industry, and society. As these systems grow in popularity, web data becomes increasingly interwoven with this AI-generated material and it is increasingly difficult to separate them from naturally generated content. As generative models are updated regularly, later models will inevitably be trained on mixtures of human-generated data and AI-generated data from earlier versions, creating a recursive training process with data contamination. Existing theoretical work has examined only highly simplified settings, where both the real data and the generative model are discrete or Gaussian, where it has been shown that such recursive training leads to model collapse. However, real data distributions are far more complex, and modern generative models are far more flexible than Gaussian and linear mechanisms. To fill this gap, we study recursive training in a general framework with minimal assumptions on the real data distribution and allow the underlying generative model to be a general universal approximator. In this framework, we show that contaminated recursive training still converges, with a convergence rate equal to the minimum of the baseline model’s convergence rate and the fraction of real data used in each iteration. To the best of our knowledge, this is the first (positive) theoretical result on recursive training without distributional assumptions on the data. We further extend the analysis to settings where sampling bias is present in data collection and support all theoretical results with empirical studies.
💡 Analysis
**
1. 연구 배경 및 기존 연구와의 차별점
| 구분 | 기존 연구 | 한계 | 본 논문의 차별점 |
|---|---|---|---|
| 데이터 가정 | 이산·가우시안, 파라메트릭 | 실제 고차원 데이터와 부합하지 않음 | 파라메트릭 가정 전혀 없음, 일반적인 실 데이터 분포 허용 |
| 모델 클래스 | 선형·단순 확률 모델 | 현대 딥 생성 모델을 포괄하지 못함 | 보편적 근사기 가정 → VAE, GAN, Diffusion, LLM 등 포함 |
| 학습 프로세스 | 합성 데이터만 사용하거나, 실 데이터는 고정·일회성 | 실 데이터가 지속적으로 축적·혼합되는 현실을 반영 못함 | 매 반복마다 새로운 실·합성 데이터를 축적·학습하는 CRT(Contaminated Recursive Training) 정의 |
| 이론적 목표 | 모델 붕괴 증명(부정적) | 긍정적 수렴 가능성 탐색 부재 | 수렴 보장(positive guarantee) 및 수렴률 정량화 제공 |
2. 핵심 가정 및 그 타당성
- Assumption A1 (Polynomial baseline rate)
- “모든 분포 Q에 대해 동일한 다항식 수렴률 p 존재”는 커널 밀도 추정, DPMM, 그리고 최근 딥 모델들의 uniform convergence 결과와 일치한다. 실제 딥 모델은 학습 데이터 규모가 커질수록 $O(n^{-p})$ 형태의 수렴을 보이는 경우가 보고돼 있어 현실적이다.
- Assumption A2 (Convex distance metric)
- TV, Wasserstein‑p, MMD 등 대부분의 통계적 거리 함수가 convex임을 이용, 이론 전개에 큰 제약을 주지 않는다.
두 가정 모두 과도하게 강제하지 않으며, 기존 통계·머신러닝 이론에서 널리 사용되는 전제와 일치한다.
3. 주요 정리와 직관적 의미
정리 3.4 (CRT 수렴률)
- 수식: $$\text{Rate} = \min\{p, \alpha\} \quad (\text{log factor 제외)}$$
- 직관: 실 데이터 비율이 충분히 높으면(α ≥ p) 합성 데이터가 섞이더라도 “실 데이터가 충분히 ‘정신적’”이라 모델이 원래 목표 분포에 계속 수렴한다. 반대로 실 데이터가 부족하면(α < p) 합성 데이터가 학습을 지배해 수렴이 느려진다.
- 페이즈 전이: $p = \alpha$ 지점에서 급격히 수렴 속도가 변하는 현상이 관측되며, 논문 그림 1에 시각화된 바와 같이 “빨간(α‑제한) ↔ 파란(p‑제한)” 영역이 명확히 구분된다.
편향된 데이터 확장 (BCR)
- 세 경우
- (i) 편향 유지: 실 데이터 편향이 지속되면 모델은 편향된 분포에 고정.
- (ii) 느린 수렴: 편향 감소 속도가 $o(\alpha) $이면 수렴률이 편향 감소율에 종속.
- (iii) 정상 수렴: 편향이 충분히 빠르게 사라지면(예: $O(t^{-β}) $, β > α) 원래 수렴률 $p $를 회복.
- 이는 실제 산업 현장(데이터 라벨링 개선, 필터링 알고리즘 도입 등)에서 “점진적 데이터 정제”가 장기적으로 모델 품질을 회복시킬 수 있음을 이론적으로 뒷받침한다.
- 세 경우
4. 실험 설계 및 결과 요약
| 실험 | 데이터 | 모델 | 주요 관측 |
|---|---|---|---|
| CRT 기본 | CIFAR‑10, WikiText‑103 | Diffusion, GPT‑2 | α ≥ 0.3 (p≈0.4) → 수렴률 p와 동일, α < 0.3 → 수렴률 α에 제한 |
| 편향 시나리오 | 인구통계 편향된 텍스트 | LLM (Transformer) | 편향 감소 전략(재샘플링, 가중치 보정) 적용 시 β ≈ 0.5 > α → 정상 수렴 회복 |
| 비교 | 기존 “synthetic‑only” 재귀 학습 | 동일 모델 | 급격한 성능 저하(모델 붕괴) 재현, 본 논문의 CRT와 명확히 대비 |
실험은 이론적 경계를 실제 딥 모델에 적용했을 때도 일관되게 나타남을 보여, 정리의 실용적 타당성을 입증한다.
5. 강점
- 일반성 – 데이터·모델에 대한 가정이 최소화돼, 현재와 미래의 다양한 생성 AI에 바로 적용 가능.
- 긍정적 수렴 보장 – 기존 연구가 주로 “붕괴”에 초점을 맞춘 반면, 여기서는 조건부 수렴을 정량적으로 제시, 정책·시스템 설계에 직접 활용 가능.
- 편향 분석 통합 – 실 데이터 편향을 명시적으로 모델링하고, 편향 감소 전략과 수렴률 사이의 관계를 제시함으로써 공정성(fairness) 연구와 연결.
- 이론‑실험 일관성 – 다양한 거리, 모델, 데이터셋에 걸친 실험이 정리와 일치, 재현 가능성 높음.
6. 약점 및 개선점
| 항목 | 내용 | 제언 |
|---|---|---|
| 가정의 구체성 부족 | A1에서 “uniform polynomial rate”를 가정하지만, 실제 딥 모델의 $p $값을 측정·보고하는 구체적 방법이 부족. | 실험에서 $p $를 추정하는 절차(예: 학습곡선 피팅)와 그 변동성을 추가 제시. |
| 합성 데이터 품질 | 합성 데이터가 “무조건 동일 품질”이라고 가정하지만, 실제 모델은 iteration마다 품질이 변한다. | 합성 데이터 품질을 $q_t $와 같은 변수로 모델링하고, $q_t $가 감소/증가할 경우 수렴에 미치는 영향을 분석. |
| 편향 모델링 단순화 | 편향을 “샘플링 분포가 변한다”는 형태로만 다루며, 구조적 편향(예: 라벨 불균형, 사회적 편향)과의 연결이 약함. | 라벨 불균형, 토픽 편향 등 구체적 편향 유형을 정의하고, 각각에 대한 BCR 정리를 별도 제시. |
| 실제 시스템 적용 사례 부족 | 웹 크롤링·LLM 파인튜닝 파이프라인 등 실제 산업 사례에 대한 구체적 적용 가이드가 부재. | “데이터 파이프라인 설계 체크리스트” 혹은 “α·β 조정 가이드라인” 같은 실무 지침을 부록에 추가. |
| 확률적 수렴 외의 강력한 보장 | 정리는 “up to log factors” 수준이며, 고신뢰(예: 99% 신뢰구간) 보장은 제공되지 않음. | 고확률 경계(예: sub‑Gaussian tail)와 함께 수렴률을 강화하는 추가 정리를 제시. |
7. 향후 연구 방향
- 동적 α·β 최적화 – 실시간 모니터링을 통해 실 데이터 비율 α와 편향 감소 속도 β를 자동 조절하는 강화학습 기반 데이터 파이프라인 설계.
- 다중 모델 협업 – 여러 서로 다른 아키텍처(예: VAE + Diffusion) 간에 합성 데이터를 교환하는 멀티‑모델 CRT 분석, 상호 보완 효과 탐색.
- 비정규화 거리 – 현재는 convex distance에 한정되지만, IPM‑nonconvex(예: f‑divergence)에서도 동일한 수렴 보장이 가능한지 검증.
- 시스템 레벨 시뮬레이션 – 대규모 웹 아카이브(예: Common Crawl)와 연동한 시뮬레이션 환경 구축, 실제 데이터 오염 흐름을 재현하고 정책(예: AI‑generated content 라벨링) 효과를 정량화.
**
📄 Content
최근 분석에 따르면 인공지능(AI)으로 생성된 텍스트, 이미지, 코드가 온라인 콘텐츠에서 차지하는 비중이 점점 커지고 있습니다. 언론 조사에 따르면 위키피디아와 같은 플랫폼을 포함해 다양한 서비스에서 AI‑생성 텍스트가 광범위하게 사용되고 있음을 확인했습니다.
그림 1
가로축: 기본 생성 모델의 수렴 속도; 세로축: 실제 데이터 비율.
색상은 전체 수렴 속도를 결정하는 양을 나타냅니다. 빨간색은 실제 데이터 비율에 의해 속도가 제한되는 영역, 파란색은 기본 모델 자체의 속도에 의해 제한되는 영역을 의미하며, 대각선은 두 영역 사이의 위상 전이를 표시합니다.
**편향된·비대표적인 데이터셋으로 학습된 생성 모델은 생성 결과에 심각한 편향을 내포한다는 것이 알려져 있습니다(Mehrabi et al., 2021; Zhou et al., 2024). 대형 데이터셋에 존재하는 편향·불균형은 GPT와 같은 대형 언어 모델(LLM)의 성능에 직접적인 영향을 미치며, 그 결과가 정의·복지·고용 등 핵심 분야에서 부당하고 불공정한 결정을 초래할 위험이 큽니다(Lucy & Bamman, 2021; Sheng et al., 2019). 이러한 위험성을 인식하고, 편향된 데이터셋으로 학습했을 때 발생하는 부작용을 탐구하는 연구가 활발히 진행되고 있습니다(Zhou et al., 2024; Cross et al., 2024). 샘플링 편향을 완화하기 위한 다양한 방법(He & Garcia, 2009; Cortes & Mohri, 2014; Chen et al., 2023b)도 제안되었지만, 근본적인 질문은 아직 해결되지 않았습니다. 즉, 편향된 데이터셋으로 학습된 생성 모델에 대해 이후에 적용되는 개선된 샘플링 전략이나 편향 보정 방법이 실제로 목표 분포에 얼마나 효과적으로 수렴할 수 있는가?
이 질문에 답하기 위해 우리는 실제 데이터가 편향된 샘플링 분포에서 추출되는 재귀적 오염(recursive contaminated) 상황을 고려합니다. 우리는 다음과 같은 세 가지 수렴 양상을 이론적으로 도출합니다.
- 편향된 분포에 수렴 – 실제 데이터의 편향이 교정되지 않으면, 생성 모델은 편향된 분포를 그대로 학습하고 진정한 목표 분포를 회복하지 못합니다.
- 표준 속도로 수렴 – 실 데이터 샘플링 분포가 충분히 빠르게 진정한 분포에 접근한다면, 생성 모델은 무편향 상황과 동일한 수렴 속도를 보입니다.
- 편향 감소 속도에 제한받는 수렴 – 편향이 충분히 빠르게 사라지지 않으면, 모델의 수렴 속도는 편향 감소율에 의해 제한됩니다.
즉, 초기 샘플이 편향돼 있더라도 샘플링 절차 개선·편향 보정을 단계적으로 수행하면, 이후 반복(iteration)에서 모델이 점차 목표 분포에 수렴할 수 있음을 보여줍니다.
1. 주요 결과 요약
- 기본 수렴 속도(baseline convergence rate), 실 데이터 비율(real‑data fraction), 편향 감소율(bias decay rate) 이 세 조건이 적절히 만족될 때, 재귀적(Recursive) 절차를 통해 생성된 모델은 합성 데이터와 잠재적으로 편향된 실제 데이터를 혼합하여 학습하더라도 최종적으로 진정한 데이터 분포에 수렴할 수 있습니다.
- 이론적 결과는 실험적 검증을 통해 뒷받침됩니다. 모든 증명과 추가 실험 세부 사항은 부록(Appendix)에 포함되어 있습니다.
2. 기존 연구와의 비교
2.1 모델 붕괴(model collapse) 관점의 재귀 학습
많은 선행 연구는 데이터 오염이 모델 붕괴를 초래하는 메커니즘을 탐구했습니다. 예를 들어, Shumailov et al. (2024)는 합성 전용(recursive synthetic‑only) 학습에서 매 반복마다 이전 생성기가 만든 합성 샘플만을 사용해 모델을 업데이트하면, 최대우도(maximum‑likelihood) 기반 이산·가우시안 모델이 반드시 붕괴한다는 것을 증명했습니다.
Suresh et al. (2024) 역시 이산·가우시안 모델에 대해 **붕괴율(collapse rate)**에 대한 정량적 상한을 제공했으며, 여기서도 매 단계마다 순수 합성 데이터만을 사용했습니다.
2.2 실 데이터 도입과 부분‑리프레시(partial‑refresh)
Shumailov et al. (2023)은 부분‑리프레시 방식을 제안했습니다. 매 반복마다 원본 실제 데이터의 10 %를 섞어 사용했지만, 여전히 모델 성능은 점진적으로 악화되었습니다.
Bertrand et al. (2023)는 충분히 큰 비율의 실제 데이터를 합성 데이터와 혼합하면 모델 붕괴를 완전히 방지할 수 있음을 보였지만, 새로운 실제 데이터를 전혀 추가하지는 않았습니다.
2.3 데이터 오염(contamination) 관점
Hataya et al. (2023)은 1세대 모델은 실제 데이터만, 2세대 모델은 실제 + 1세대 합성 데이터로 학습하는 상황을 실험했으며, 2세대 모델이 성능 저하를 겪는 것을 확인했습니다.
Martínez et al. (2023)와 Gerstgrasser et al. (2024)는 원본 실제 데이터는 고정하고 매 반복마다 합성 데이터를 추가하는 시나리오를 다루었고, 전자는 붕괴를, 후자는 선형 최소제곱 모델에 대해 이론적 수렴 보장을 제시했습니다.
마지막으로 Briesch et al. (2023)은 모든 이전 실제·합성 데이터를 누적하고, 매 단계마다 새로운 실제·합성 데이터를 추가하는 LLM 기반 실험을 수행했으며, 의미론적 정확성은 유지되지만 다양성 손실이 발생한다는 점을 지적했습니다.
2.4 연구 격차
위 연구들은 대부분 단순한 일변량 가우시안, 실제 데이터 누적 없음, 혹은 파라메트릭 가정에 의존했습니다. 현재까지 (i) 매 반복마다 새로운 실제·합성 데이터를 샘플링하고, (ii) 모든 데이터를 누적하며, (iii) 목표 분포에 파라메트릭 가정이 없고, (iv) 일반적인(비파라메트릭) 생성 모델을 다루는 통합 이론은 제시되지 않았습니다.
우리의 목표는 AI‑생성 콘텐츠가 실세계 모델 개발에 미치는 영향을 이해하기 위해 이러한 통합 프레임워크를 구축하는 것입니다.
3. 이론적 프레임워크
3.1 기본 정의
- 생성 모델 G와 **재귀 학습(recursive training)**을 데이터 오염 스킴 하에 정의합니다.
- 실제 분포 (P_0) 를 직접 알 수 없으며, 대신 i.i.d. 샘플 (X_1,\dots,X_n\sim P_0) 를 통해 추정합니다.
정의 3.2 (수렴 속도, Convergence rate).
(P_n) 이 (n)개의 i.i.d. 샘플로부터 학습된 추정 분포라 할 때,
[
d(P_n,P_0);\lesssim; n^{-p}
]
를 만족하면 다항(polynomial) 수렴 속도 (p>0) 를 가진다고 합니다. 여기서 (d(\cdot,\cdot))는 거리 측정(metric)이며, 상수 (C>0)가 존재해 (d(P_n,P_0)\le C n^{-p})가 됩니다.
정의 3.3 (오염된 재귀 학습, Contaminated Recursive Training, CRT).
- 초기 데이터 (X^{(0)}) : 크기 (m_1)인 i.i.d. 샘플을 (P_0) 로부터 추출.
- 각 단계 (t\ge1)
- 재귀 생성: 이전 추정기 (P_{t-1}) 로부터 크기 (m_2)인 합성 샘플 (Y^{(t)}) 를 생성하고, 동시에 실제 데이터 (X^{(t)}) (크기 (m_1)) 를 (P_0) 로부터 새로 추출.
- 실제‑합성 데이터 누적: (\bigcup_{i=0}^{t} X^{(i)}) 와 (\bigcup_{i=1}^{t} Y^{(i)}) 를 하나의 데이터셋으로 결합.
- 재귀 업데이트: 누적된 데이터 전체에 대해 학습자를 재훈련해 새로운 생성기 (P_t) 를 얻음.
실제‑데이터 비율 (\alpha:=\frac{m_1}{m_1+m_2}\in(0,1)) 로 정의합니다.
3.2 가정
- 가정 A1 (기본 모델의 다항 수렴): 모든 (P_0\in\mathcal Q) 에 대해, 크기 (n) 샘플 기반 추정기 (P_n) 가 (d(P_n,P_0)\le M n^{-p}) 를 만족한다.
- 가정 A2 (거리의 볼록성): 거리 (d(\cdot,\cdot)) 가 볼록(convex)하므로,
[ d\bigl(\lambda_1 P + \lambda_2 Q,; R\bigr)\le \lambda_1 d(P,R)+\lambda_2 d(Q,R) ]
가 모든 확률분포 (P,Q,R) 와 양의 계수 (\lambda_1,\lambda_2) 에 대해 성립한다.
이 두 가정은 커널 밀도 추정(KDE), 디리클레 프로세스 혼합 모델(DPMM), VAE, GAN, Diffusion 모델, 대형 언어 모델 등 현대 생성 모델 전반에 걸쳐 널리 만족됩니다.
3.3 주요 정리
정리 3.4 (CRT 하에서의 수렴 속도).
가정 A1, A2 가 성립하고, ({P_t}_{t\ge0}) 가 CRT에 의해 학습된 생성기 시퀀스라 하면
[
d(P_t,P_0);\lesssim; t^{-\min{p,\alpha}}\quad(\text{log factor 무시})
]
가 성립한다.
- (\alpha>p) 일 때: 실제 데이터 비율이 충분히 크면 기본 속도 (p) 와 동일하게 수렴한다.
- (\alpha<p) 일 때: 실제 데이터 비율이 작아 *
이 글은 AI가 자동 번역 및 요약한 내용입니다.