작업 다양성이 이끌어내는 인‑컨텍스트 학습의 범위 확장
초록
**
프리트레인 시에 선형 함수들을 구형 캡 형태로 샘플링해 작업 다양성을 조절하면, 트랜스포머는 전문화된 솔루션에서 전체 작업 공간을 일반화하는 솔루션으로 급격히 전이한다. 전이점은 캡 각도 φ ≈ 120°(노이즈 0) 또는 φ ≈ 135°(노이즈 σ²=1/4) 에서 나타나며, 깊이·차원·비선형 문제에서도 유사하게 관찰된다.
**
상세 분석
**
이 논문은 “작업 다양성(task diversity)”이라는 새로운 개념을 도입해, 프리트레인 데이터가 전체 작업 공간(단위 구면)에서 얼마나 넓게 퍼져 있는지를 구형 캡의 반각 φ 로 정량화한다. φ가 작을수록 프리트레인 작업이 좁은 방향에 집중되고, φ가 클수록 다양한 방향을 포함한다. 실험은 d=10 차원의 선형 회귀를 기본으로, 각 컨텍스트에 n=50개의 (x, y) 쌍을 제공하고, 트랜스포머가 마지막 y를 예측하도록 학습한다.
핵심 발견은 φ가 일정 임계값 φ_c 을 넘으면 모델이 전문화된 솔루션에서 일반화 솔루션으로 전이한다는 점이다.
- 전문화된 솔루션(φ ≲ φ_c): 모델은 프리트레인 캡 내부의 작업에 대해서는 베이즈 최적 추정보다 낮은 MSE를 달성한다. 이는 프리트레인 데이터에 과적합해, 캡 외부의 작업을 마주하면 급격히 성능이 떨어지는 형태이다.
- 일반화 솔루션(φ ≳ φ_c): 모델은 캡 내부·외부 모두에서 거의 동일한 낮은 오류를 보이며, 베이즈 최적 추정(프리트레인 캡에 제한된 사전)과 거의 동등하거나 더 나은 성능을 보인다. 즉, 제한된 프리트레인 데이터만으로도 전체 작업 공간을 커버하는 “범용” 인‑컨텍스트 학습 메커니즘을 습득한다.
전이점 φ_c는 라벨 노이즈 σ²에 민감하게 변한다. 노이즈가 없을 때 φ_c≈120°이지만, σ²=0.25일 경우 φ_c≈135°로 오른다. 이는 노이즈가 모델에게 더 많은 작업 다양성을 요구한다는 의미다.
또한, 저자는 베이즈 최적 추정을 명시적으로 계산해 비교한다. 프리트레인 캡에 제한된 사전 p_φ(w)로부터 얻은 베이즈 추정은 캡 외부 작업에 대해 반드시 캡 내부의 가장 가까운 벡터를 반환하므로 OOD 성능이 제한적이다. 트랜스포머가 이를 능가하는 이유는 학습 과정에서 암묵적으로 캡 외부를 포함하는 보다 넓은 사전을 형성하기 때문이다.
다양성·작업 수의 상호작용을 탐색한 phase diagram에서는 세 가지 영역이 드러난다. (1) 낮은 다양성·작업 수: 전문화, (2) 높은 다양성·낮은 작업 수: 부분 일반화, (3) 높은 다양성·높은 작업 수: 완전 일반화.
비선형 회귀(예: 2차 다항식)에서도 동일한 전이 현상이 관찰돼, 이 현상이 선형성에 국한되지 않음을 시사한다. 모델 깊이와 차원도 전이점에 영향을 미치는데, 더 깊은 모델이나 고차원 입력은 일반화 솔루션을 얻기 위해 더 큰 φ가 필요하다.
마지막으로, 프리트레인 시에 단위 구면(R=1)만 사용했음에도, φ가 충분히 크면 **구면 내부(0<R<1)**의 작업까지도 성공적으로 일반화한다는 흥미로운 결과를 제시한다. 이는 트랜스포머가 “작업 공간의 형태” 자체를 학습하고, 단순히 훈련 데이터의 표면을 모방하는 수준을 넘어섰음을 의미한다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기