프리트레이닝의 근본적 병목 특징 부족과 앙상블 해결책
초록
본 논문은 대규모 사전학습 모델이 전이 학습 시 필요한 모든 특징을 포괄하지 못하는 근본적인 병목 현상을 이론적으로 분석하고, 다중 모델 앙상블을 통해 특징 표현을 풍부하게 만들어 전이 성능을 평균 9% 향상시킬 수 있음을 실증한다.
상세 분석
이 연구는 “특징 희소성(sparsity bias)”이라는 개념을 중심으로 전이 학습의 한계를 파악한다. 저자들은 사전학습 단계에서 모델이 최소한의 손실을 감소시키는 특징만을 선택적으로 학습하고, 나머지 잠재적인 유용 특징은 버려진다고 주장한다. 이를 수학적으로 formalize하기 위해, 여러 개의 데이터 분포 {P⁽ʲ⁾} 를 혼합한 P_mix 위에서 네트워크를 사전학습하고, 동일한 혼합에 포함된 특정 목표 분포 P⁽ᵢ⁾ 에 대해 선형 프로빙(linear probing)만 수행했을 때 얻어지는 성능을 직접 학습한 경우와 비교한다. 핵심 질문은 “P_mix 에 목표 분포가 포함돼 있더라도, 사전학습된 특징 공간이 P⁽ᵢ⁾ 에 대한 최적 해를 포함하는가?”이다.
논문은 두 가지 가정을 전제로 한다. 첫째, 사전학습 데이터는 무한히 제공되지만, 최적화 과정에서 SGD와 큰 학습률, 조기 종료, 가중치 감쇠와 같은 요소가 암묵적인 희소성 편향을 만든다. 둘째, 전이 단계에서는 충분한 양의 라벨 데이터가 없으므로, 실제로는 선형 프로빙 수준에서 특징을 재조정하는 것이 현실적이다. 이러한 가정 하에, 저자들은 NTK(Neural Tangent Kernel) 관점에서 미세조정이 기존 특징에 대한 선형 결합으로 귀결된다는 점을 보인다. 즉, 사전학습된 특징이 충분히 풍부하지 않다면, 미세조정 단계에서 새로운 비선형 특징을 생성하기 어렵다.
이를 뒷받침하기 위해 논문은 두 차원의 인공 특징 φ₁, φ₂ 만을 갖는 간단한 토이 예시를 제시한다. 네 개의 서브분포 P₁…P₄ 는 각각 φ₁ 또는 φ₂ 중 하나만을 사용해 완벽히 구분될 수 있다. 그러나 혼합 P_mix 은 선형적으로 구분 불가능하고, 최적 분류기는 가장 가중치가 낮은 점을 무시하고 나머지 세 점만을 올바르게 분류한다. 희소성 편향을 가진 딥 네트워크는 이때 하나의 특징만을 선택하게 되므로, 결과적으로 두 서브분포 중 절반만을 올바르게 처리한다. 이는 사전학습이 목표 작업을 포함하더라도 중요한 특징을 놓칠 수 있음을 명시적으로 보여준다.
실험적 검증에서는 ResNet‑50을 기반으로 여러 사전학습 모델을 훈련한 뒤, 동일한 파인튜닝 데이터에 대해 단일 모델과 다중 모델을 앙상블한 경우를 비교한다. 앙상블은 서로 다른 초기화와 데이터 셔플링에 의해 학습된 서로 보완적인 특징을 결합함으로써, 기존 단일 모델 대비 전이 정확도가 평균 9% 상승한다. 또한, 다양한 분야(이미지, 자연어, 유전체)에서 기존 논문들의 결과를 재분석해, 동일한 희소성 병목이 광범위하게 존재함을 확인한다.
핵심 인사이트는 다음과 같다. 1) 사전학습은 “모든 가능한 특징을 학습한다”는 이상적 가정이 깨지며, 특히 데이터 불균형·순서·학습 하이퍼파라미터에 민감하게 작동한다. 2) 희소성 편향은 학습 과정에서 초기 발견된 특징을 고정시키고, 이후에 등장하는 잠재적 특징을 억제한다. 3) 이러한 병목을 완화하려면 추가적인 사전학습 비용 없이도, 서로 다른 특징을 보유한 모델들을 간단히 평균하거나 투표하는 앙상블 전략이 효과적이다. 4) 앙상블은 특히 라벨이 제한된 전이 상황에서, 기존 파인튜닝보다 더 풍부한 표현을 제공한다는 점에서 실용적이다.
결론적으로, 논문은 대규모 사전학습 모델이 반드시 전이 학습에 최적이라고 보는 관점을 재고하고, 특징 다양성을 확보하기 위한 저비용 앙상블 접근법을 제안한다. 이는 향후 모델 설계와 데이터 수집 전략에 중요한 시사점을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기