데이터 혼합이 인컨텍스트 학습에 미치는 영향: 트랜스포머와 MLP의 비대칭 동등성
초록
본 논문은 다중 이질적 데이터 소스로 사전학습된 트랜스포머에 두 층 비선형 MLP 헤드를 추가한 모델을 고차원 극한에서 분석한다. 첫 번째 층을 한 번의 경사 단계로 학습하고 두 번째 층을 완전 최적화했을 때, 해당 모델은 구조화된 다항식 예측기와 ICL 오류 면에서 동등함을 보인다. 이 동등성을 이용해 비선형 MLP가 선형 기반 모델보다 ICL 성능을 크게 향상시키며, 데이터 소스의 잡음 수준·공분산 구조·태스크 공분산이 학습 효율에 미치는 영향을 정량화한다. 실험은 다양한 활성화 함수·모델 규모·데이터 분포와 다국어 감성 분석 사례까지 확장해 이론을 검증한다.
상세 분석
이 연구는 기존 이론이 단일 소스·선형 모델·MLP를 배제한 단순화된 설정에 머물렀던 한계를 넘어, 실제 사전학습 상황을 반영한 복합 모델을 제시한다. 핵심은 두 층으로 구성된 MLP 헤드를 갖는 트랜스포머를 고차원 비례극한(입력 차원 d, 컨텍스트 길이 ℓ, 학습 샘플 수 n, 은닉 차원 k가 동시에 무한대로 가면서 ℓ/d, n/d², k/n이 고정) 하에서 분석한 점이다. 첫 번째 층은 학습 초기 단계에서 한 번의 경사 하강으로 업데이트하고, 두 번째 층은 리지 회귀로 완전 최적화한다는 두 단계 학습 방식을 채택했으며, 이는 기존 연구에서 제시된 ‘단일 단계 학습’과 유사하게 feature learning을 유지하면서 수학적 tractability를 확보한다.
주요 이론적 결과는 “비대칭 동등성(Theorem 4.1)”으로, 위의 가정 하에 해당 트랜스포머‑MLP 모델의 ICL 평균 제곱오차가 동일 차수의 구조화된 다항식 모델과 동일한 극한값을 갖는다는 것이다. 이 동등성은 Gaussian universality와 orthogonal polynomial 이론을 결합해 증명했으며, 입력·태스크 공분산이 동일한 트레이스와 저‑랭크 구조를 가질 때 성립한다. 결과적으로 비선형 활성화(예: ReLU, GELU, tanh)와 두 층 MLP가 비선형 함수 ϕₛ를 근사하는 데 필요한 고차 다항식 공간을 자동으로 생성함을 의미한다.
데이터 혼합 효과 분석에서는 각 소스 s에 대해 (μₓ,ₛ, Σₓ,ₛ)와 (μ_ξ,ₛ, Σ_ξ,ₛ), 잡음 수준 Δₛ를 정의하고, “고품질 소스”를 (① 낮은 Δₛ, ② 구조화된 Σₓ,ₛ와 Σ_ξ,ₛ, ③ 충분히 풍부한 고유값 스펙트럼)으로 규정한다. 이때 소스 혼합 비율 ρᵢ가 고품질 소스에 편중될수록 다항식 계수의 편향이 감소하고, 결국 ICL 오류가 급격히 낮아진다. 반대로 잡음이 큰 소스가 과다하게 섞이면, 학습된 첫 층의 특징이 노이즈에 과적합돼 성능이 저하된다.
또한, 태스크 공분산 Σ_ξ,ₛ의 구조가 충분히 비등방성(즉, 몇몇 고유값이 크게 차이나는 경우)일 때만 첫 층이 의미 있는 비선형 특징을 학습한다는 ‘특징 학습 조건’을 제시한다. 이는 Σ_ξ,ₛ가 거의 동일한 스칼라 배수라면, 모델이 단순히 평균값을 추정하는 수준에 머무르게 됨을 의미한다.
실험 부분에서는 (i) 다양한 활성화 함수와 은닉 차원 k에 대해 시뮬레이션을 수행해 이론적 예측과 일치함을 확인하고, (ii) 소스별 잡음·공분산을 조절한 합성 데이터에서 데이터 혼합 비율이 ICL 오류에 미치는 곡선을 그렸다. 특히, 고품질 소스 비중이 30 % 이상이면 비선형 MLP가 선형 모델 대비 20 %~35 % 정도의 오류 감소를 보였다. 마지막으로 다국어 감성 분석 실험에서는 각 언어를 별도 소스로 간주하고, 영어 기반 사전학습 모델에 다국어 데이터 혼합을 적용했을 때, 저잡음·구조화된 언어(예: 영어, 독일어)에서 얻은 특징이 잡음이 큰 언어(예: 아프리카 언어)에도 전이되어 전체 평균 정확도가 4.2 %p 상승함을 보고했다.
이러한 결과는 (1) 비선형 MLP가 트랜스포머의 ICL 능력을 근본적으로 확장한다는 점, (2) 데이터 소스의 질과 구조가 학습 효율을 결정한다는 점, (3) 고차원 극한 분석이 실제 모델 설계와 데이터 수집 전략에 실용적인 가이드를 제공한다는 점을 시사한다.
댓글 및 학술 토론
Loading comments...
의견 남기기