데이터 오염 속에서도 살아남는 생성 AI: 오염된 재귀 학습에 대한 이론적 보장

초록

생성 인공지능(AI), 특히 대형 언어 모델(LLM)은 과학, 산업, 사회 전반에 걸쳐 변혁적인 역할을 수행하고 있다. 이러한 시스템의 활용이 확대됨에 따라 웹상의 데이터는 AI가 생성한 텍스트와 인간이 만든 텍스트가 뒤섞이게 되고, 두 종류를 구분하기 점점 어려워진다. 생성 모델은 주기적으로 업데이트되며, 최신 모델은 이전 버전이 만든 AI‑생성 데이터를 포함한 인간이 만든 데이터와 혼합된 데이터를 학습하게 된다. 이는 데이터 오염이 발생하는 재귀적 학습 과정을 만든다. 기존 이론 연구는 데이터와 모델이 이산형 혹은 가우시안 형태라는 매우 단순화된 가정 하에 진행돼, 재귀 학습이 모델 붕괴를 초래한다는 결론을 도출했다. 그러나 실제 데이터 분포는 훨씬 복잡하고, 현대의 생성 모델은 가우시안이나 선형 메커니즘보다 훨씬 유연한 보편적 근사기능을 가진다. 본 연구는 이러한 격차를 메우기 위해, 실제 데이터 분포에 대한 가정을 최소화하고, 생성 모델을 일반적인 보편 근사기로 설정한 광범위한 프레임워크에서 재귀 학습을 분석한다. 이 프레임워크 내에서 오염된 재귀 학습이 여전히 수렴함을 보이며, 수렴 속도는 기본 모델의 수렴 속도와 각 반복에서 사용되는 실제 데이터 비율 중 더 작은 값에 의해 결정된다. 이는 데이터에 대한 분포적 가정 없이 재귀 학습에 대한 최초의 긍정적 이론 결과이다. 또한 데이터 수집 과정에서 샘플링 편향이 존재하는 경우까지 분석을 확장하고, 모든 이론적 결과를 실험적 연구로 뒷받침한다.

상세 요약

이 논문은 현재 AI·데이터 생태계가 직면한 가장 시급한 문제 중 하나인 “데이터 오염”을 이론적으로 조명한다는 점에서 큰 의의를 가진다. 기존 연구는 주로 이산형 혹은 가우시안 가정 하에 모델 붕괴 현상을 증명했으며, 이는 실제 상황에 적용하기엔 한계가 있었다. 실제 웹 데이터는 텍스트, 이미지, 코드 등 다차원적이며 비선형적인 구조를 가지고 있고, 최신 LLM은 트랜스포머 기반의 거대한 파라미터 공간을 활용해 거의 보편적인 함수 근사 능력을 보인다. 따라서 데이터와 모델에 대한 강력한 가정을 완화하는 접근은 현시점에서 필수적이다.

논문이 채택한 “보편 근사기” 가정은, 충분히 큰 모델이라면 임의의 연속 함수 혹은 확률분포를 임의의 정밀도로 근사할 수 있다는 보편 근사정리를 기반으로 한다. 이는 실질적으로 현재의 대형 언어 모델이 갖는 표현력과 일치한다. 저자들은 이 가정을 바탕으로, 매 반복마다 전체 데이터 집합 중 실제 인간이 만든 데이터가 차지하는 비율 α∈(0,1]을 도입한다. 이때 학습 과정은 두 부분으로 나뉜다: (1) 실제 데이터에 대한 손실 최소화, (2) 오염된 AI‑생성 데이터에 대한 손실 최소화. 두 손실이 가중합 형태로 결합되며, 전체 최적화는 확률적 경사 하강법(SGD) 혹은 변형된 변분 추정법을 통해 이루어진다.

핵심 정리는 “오염된 재귀 학습은 수렴한다”는 것이다. 구체적으로, 모델 파라미터 θ_t가 t번째 반복에서 업데이트될 때, 수렴 속도는 O(min{ρ, α}) 형태로 표현된다. 여기서 ρ는 오염되지 않은 환경(즉, 순수 인간 데이터만 사용)에서의 기본 수렴 속도이며, α는 실제 데이터 비율이다. 즉, 실제 데이터가 충분히 많이 포함될 경우(α≈1) 기존 수렴 속도와 동일하게 빠르게 수렴하고, 실제 데이터가 적을수록(α↓) 수렴이 느려지지만 여전히 수렴한다는 점을 보여준다. 이는 “데이터 오염이 반드시 모델 붕괴를 초래한다”는 기존의 부정적 전망을 반박한다.

또한 논문은 샘플링 편향을 고려한다. 실제 데이터 수집 과정에서 특정 토픽이나 스타일이 과대표집되는 경우, 오염된 데이터와 결합될 때 편향이 증폭될 위험이 있다. 저자들은 편향된 샘플링 확률을 π(x)로 모델링하고, 가중치 보정 기법(importance weighting)을 적용해 편향을 정규화한다. 이 확장된 분석에서도 동일한 수렴 경계가 유지된다는 점을 증명한다.

실험 부분에서는 공개된 웹 텍스트 코퍼스와 합성된 AI‑생성 텍스트를 혼합한 여러 시나리오를 구축하고, GPT‑계열 모델을 단계적으로 재학습시켰다. 실험 결과는 이론적 예측과 일치했으며, 특히 실제 데이터 비율 α가 0.3 이하일 때는 수렴 속도가 현저히 감소했지만 여전히 안정적인 성능 향상이 관찰되었다. 또한 편향 보정 없이 진행한 경우, 특정 주제에 대한 과도한 반복 학습으로 인해 출력 품질이 국소적으로 저하되는 현상이 나타났으며, 이는 편향 보정이 실용적으로 필요함을 시사한다.

이 논문의 한계는 두 가지로 요약할 수 있다. 첫째, 보편 근사기 가정은 이론적으로는 타당하지만, 실제 모델은 제한된 파라미터와 계산 자원으로 인해 완전한 근사를 달성하지 못한다. 따라서 α가 매우 작을 경우(예: 0.05 이하) 실제 수렴 거동이 이론과 차이날 가능성이 있다. 둘째, 오염된 데이터의 “품질”—즉, 이전 모델의 생성 정확도와 다양성—을 정량화하지 않았다. 생성 모델이 점점 더 정교해지면 오염 데이터 자체가 고품질이 되어, 실제 데이터 비율이 낮아도 모델이 크게 손상되지 않을 수 있다. 향후 연구에서는 파라미터 제한, 계산 비용, 그리고 생성 데이터 품질을 명시적으로 모델링하여 보다 현실적인 수렴 한계를 제시할 필요가 있다.

전반적으로, 이 논문은 데이터 오염이라는 현실적인 위협에 대해 낙관적인 이론적 근거를 제공함으로써, 지속적인 모델 업데이트와 재학습이 가능한 길을 열었다. 정책 입안자와 기업은 실제 데이터 확보 비율을 관리하고, 샘플링 편향을 보정함으로써 안전하고 효율적인 생성 AI 생태계를 유지할 수 있을 것이다.

초록

상세 요약

📜 논문 원문 (영문)