인컨텍스트 학습, 과연 학습인가?
초록
본 논문은 대형 언어 모델의 인컨텍스트 학습(ICL)이 수학적으로는 학습 정의에 부합하지만, 실험적으로는 제한된 일반화 능력과 높은 프롬프트·분포 민감성을 보이며, 진정한 범용 학습 메커니즘으로서는 취약함을 입증한다.
상세 분석
논문은 먼저 PAC 학습 이론을 변형해 ICL을 형식적으로 “학습”이라고 정의한다. 이 정의에 따르면 모델은 프롬프트와 예시를 통해 관찰된 데이터 분포 P에서 오류를 제한하고, 새로운 분포 Q에서도 동일한 오류 한계를 유지해야 한다. 그러나 이러한 수학적 정의만으로는 실제 모델이 어떻게 내부 가중치를 업데이트하지 않고도 학습을 구현하는지 설명되지 않는다. 이를 검증하기 위해 저자들은 네 종류의 대형 언어 모델(LLaMA‑2, GPT‑3.5 등)과 9개의 형식 언어·그래프·수리 작업을 선택하고, 1.89 백만 개 이상의 예측을 수집했다. 실험은 (1) 자연어 프롬프트를 무작위 알파벳 문자열로 대체해 순수한 패턴 학습을 강제, (2) 예시 수를 1에서 수백까지 늘려 학습 한계점 탐색, (3) 프롬프트 스타일(일반, 체인‑오브‑생각, 자동 프롬프트 최적화)과 데이터 분포 변동(라벨 비율, 위치, OOD) 등을 교차 검증하였다. 주요 발견은 다음과 같다. 첫째, 예시 수가 충분히 많아지면 모델 간 정확도 차이가 급격히 감소하고, 모든 프롬프트 스타일이 비슷한 수준으로 수렴한다. 즉, 모델 자체보다 프롬프트 내 규칙성에 의존한다는 의미다. 둘째, 훈련 예시의 라벨 비율이나 순서 변화에 대해서는 견고하지만, 테스트 분포가 훈련과 멀어질수록(특히 CoT와 APO 프롬프트) 성능이 급격히 저하된다. 셋째, 표면적으로 유사한 작업이라도 성능 차이가 31%까지 발생하며, 전통적인 결정 트리·k‑NN 등 간단한 모델이 절반 이상의 작업에서 ICL을 능가한다. 이러한 결과는 “몇 개의 샷만으로도 학습한다”는 기존 주장에 반하며, 실제로는 수십에서 수백 개의 예시가 필요하고, 그 효과는 프롬프트 설계와 데이터 분포에 크게 좌우된다는 점을 강조한다. 저자들은 ICL이 내부 가중치를 변경하지 않는 “ad‑hoc” 인코딩 방식이며, 이는 정형 언어 인식 능력은 제한적이지만, 프롬프트에 내재된 통계적 규칙을 추출하는 데 특화돼 있다고 결론짓는다. 따라서 ICL은 수학적으로는 학습이라 할 수 있으나, 범용적이고 견고한 학습 메커니즘으로 보기엔 아직 한계가 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기