궤적 혼합 감독으로 보상 없이 온정책 SFT 구현

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 언어 모델의 사후 학습에서 발생하는 ‘감독 불일치’와 ‘모드 붕괴’를 정량화하는 정책‑라벨 발산(PLD) 개념을 도입하고, 모델 자체의 과거 체크포인트를 활용해 동적 커리큘럼을 구성하는 궤적‑혼합 감독(TMS) 방법을 제안한다. TMS는 보상 모델이나 강화학습 루프 없이도 온정책 학습의 장점을 근사화하여, 목표 성능은 유지하면서 기존 SFT 대비 기억 손실을 크게 감소시킨다. 실험은 수학 추론(MATH, GSM8K)과 지시 수행(ARC‑C 등) 벤치마크에서 정확도‑보존 파레토 전선을 이동시킴을 보여준다.

상세 분석

이 논문은 대형 언어 모델(LLM)의 사후 학습에서 두 가지 주요 실패 모드를 체계적으로 분석한다. 첫 번째는 시간적 감독 불일치(Temporal Supervision Mismatch) 로, SFT는 고정된 레이블 분포 q(y|x)를 사용하지만 학습이 진행됨에 따라 정책 πθₜ가 변한다. 이때 정책이 레이블에 대한 확률 질량을 잃으면 교차 엔트로피 손실이 크게 증가하고, 모델은 레이블을 강제로 복원하려는 큰 그래디언트를 받게 된다. 결과적으로 일반화에 필요한 표현이 손상되고, 검증 데이터에서 PLD(정책‑라벨 발산)가 상승하면서 기억 손실이 발생한다. 두 번째는 단일 레퍼런스 교차 엔트로피에 의한 모드 붕괴(Mode Collapse) 로, 다중 정답이 가능한 추론·코드 작업에서 하나의 정답만을 학습 목표로 삼으면 다른 유효한 경로가 억제된다. 이는 답변 다양성(Answer Entropy) 감소와 Pass@K·Self‑Consistency( SC‑Acc) 저하로 측정된다.

논문은 이러한 현상을 정량화하기 위해 Policy‑Label Divergence (PLD) 를 정의한다. PLD는 q와 현재 정책 πθₜ 사이의 전방 KL(또는 교차 엔트로피)이며, SFT에서는 PLD와 기존 손실이 동일하게 된다. 중요한 관찰은 훈련 집합에서는 PLD가 지속적으로 감소하지만, 동일 분포에서 추출한 검증 집합에서는 초기 감소 후 다시 상승한다는 점이다. 이는 PLD drift 라고 명명된 감독 불일치 현상의 직접적인 지표이며, 기억 손실을 예측한다.

이를 해결하기 위해 제안된 Trajectory‑Mixed Supervision (TMS) 은 두 단계로 구성된다. ① 궤적 수집 단계에서 일정 예산 동안 표준 SFT를 수행하면서 중간 체크포인트 θ₁…θ_T 를 저장한다. ② 궤적 혼합 단계에서 각 학습 샘플에 대해 과거 체크포인트 중 하나를 무작위로 선택해 해당 정책이 생성한 출력(또는 다중 샘플) 을 레이블로 사용한다. 이렇게 하면 (a) 현재 정책과 가까운 near‑policy 목표를 제공해 PLD drift 를 억제하고, (b) 다양한 과거 정책이 생성한 다중 정답을 포함함으로써 모드 다양성을 유지한다.

실험 결과는 다음과 같다. 수학 추론 데이터셋(MATH, GSM8K)에서 TMS는 기존 SFT 대비 Pass@1·Pass@100을 크게 향상시키면서도, ARC‑C와 같은 일반화 벤치마크에서 기억 손실을 최소화한다. 특히, PLD와 검증 NLL이 초기 단계에서 최소값에 도달한 뒤 상승하는 현상이 TMS에서는 거의 관찰되지 않아, 정책‑라벨 발산이 안정적으로 낮은 수준을 유지한다는 점이 강조된다. 또한, RL 기반 방법(GRPO)과 비교했을 때, TMS는 보상 모델이나 KL‑penalty 없이도 비슷한 수준의 보존 성능을 달성하면서 학습 비용과 구현 복잡성을 크게 낮춘다.

이 논문은 “보상‑프리(on‑policy) 학습” 이라는 새로운 패러다임을 제시한다. 기존의 온정책 강화학습은 보상 설계·샘플링 비용이 큰 반면, TMS는 모델 자체의 궤적을 재활용함으로써 이러한 비용을 회피한다. 또한, PLD라는 정량적 지표를 도입해 SFT 과정에서 발생하는 감독 불일치를 명확히 측정하고, 이를 최소화하는 커리큘럼 설계가 가능함을 보인다. 향후 연구는 TMS를 대규모 멀티모달 모델이나 지속적 학습 시나리오에 확장하고, 자동화된 체크포인트 선택 전략(예: 정책 변화량 기반) 등을 탐색함으로써 더 효율적인 온정책 SFT 프레임워크를 구축할 수 있을 것으로 기대된다.

궤적 혼합 감독으로 보상 없이 온정책 SFT 구현

초록

상세 분석

댓글 및 학술 토론

의견 남기기