오프라인 SFT를 강화하면 강화학습 성능이 향상된다

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 기존 SFT(지도학습 미세조정) 단계가 RL(강화학습) 단계와 분리되어 최적화되는 문제점을 지적한다. 오프라인 데이터가 행동 정책(behavior policy)에서 생성되는 반면, RL 단계에서는 목표 정책(target policy)이 자체 롤아웃을 통해 학습한다는 분포 불일치가 성능 저하를 초래한다. 이를 해결하기 위해 저자들은 PEAR라는 중요도 샘플링 기반 손실 재가중 기법을 제안한다. 토큰, 블록, 시퀀스 수준에서 각각 가중치를 계산해 SFT 손실에 적용함으로써, SFT 단계에서 RL에 더 적합한 초기 모델을 만든다. 실험 결과, Qwen·DeepSeek 계열 모델에 PEAR를 적용했을 때 AIME2025 등 수학 문제에서 Pass@8이 최대 14.6% 상승했으며, RL 단계에서 파라미터 드리프트가 감소하는 등 전반적인 성능 향상이 확인되었다.

상세 분석

본 연구는 “SFT‑RL 파이프라인에서 발생하는 분포 불일치(distribution mismatch)”라는 핵심 문제를 정량화하고, 이를 해결하기 위한 구체적 알고리즘을 제시한다. 기존 SFT는 데이터 생성 정책 πβ(behavior policy) 하에서 수집된 로그 데이터를 사용해 토큰별 NLL 혹은 KL‑정규화 손실을 최소화한다. 그러나 RL 단계에서는 현재 모델 πθ(target policy)가 자체적으로 생성한 롤아웃을 통해 정책을 업데이트한다. 이때 πβ와 πθ 사이의 확률 비율(importance weight) w = πθ/πβ가 크게 달라지면, SFT 단계에서 학습된 파라미터가 RL 단계에서 거의 방문되지 않는 상태‑행동 쌍에 과도하게 최적화되는 현상이 발생한다. 저자들은 이를 오프‑폴리시 평가(OPE) 이론에 빗대어, 로그 데이터에 대한 중요도 가중치를 적용함으로써 손실을 재가중한다.

PEAR는 세 가지 가중치 스킴을 제공한다. ① 시퀀스‑레벨 가중치: 전체 시퀀스에 대한 중요도 비율 w1:T = ∏t Δt (Δt = πθ(y_t|·)/πβ(y_t|·))를 계산해 모든 토큰에 동일하게 적용한다. 이는 가장 직관적이지만, 긴 시퀀스에서는 분산이 커질 위험이 있다. ② 토큰‑레벨 가중치(접미사 기반): 각 토큰 t에 대해 뒤쪽 토큰들의 중요도 비율을 할인된 형태로 누적해 G_t = γ^{T‑t} ∏_{j>t} Δ_j 로 정의한다. 여기서 γ는 긴 시퀀스에서의 분산을 억제하기 위한 할인 인자이다. ③ 블록‑레벨 가중치: 토큰들을 일정 블록 크기 B로 묶어 블록 내부에서는 동일 가중치를 사용하고, 블록 간에는 접미사 가중치를 적용한다. 이는 토큰‑레벨 방식의 분산 문제를 완화하면서도 충분한 정밀도를 유지한다.

가중치 계산 과정에서 로그 확률 차이를 클리핑하고, exp 연산 전에도 상한·하한을 두어 수치적 안정성을 확보한다. 또한, 가중치에 대한 그래디언트를 차단하기 위해 stop‑gradient 연산을 적용한다. 이렇게 재가중된 손실 L_PEAR = Σ_t sg(G_t)·ℓ_t 은 기존 SFT 손실에 그대로 더해 사용되며, 별도의 모델 구조 변경 없이 기존 파인튜닝 파이프라인에 삽입 가능하다.

실험에서는 Qwen2.5/3 시리즈와 DeepSeek‑Distilled 모델을 대상으로 논리 퍼즐(SynLogic)과 수학 문제(AIME2025) 두 도메인에서 평가했다. 동일한 RL 알고리즘(PPO 기반)으로 학습했을 때, PEAR‑SFT 초기화 모델은 기본 SFT 대비 Pass@1/Pass@8이 평균 8~14% 상승했으며, 특히 AIME2025에서는 14.6%p의 절대적 향상을 보였다. 추가 분석에서는 PEAR 초기화 모델이 RL 단계에서 파라미터 드리프트(θ 변화량)가 기존 SFT 대비 약 30% 감소함을 확인했으며, 이는 초기 정책이 RL 목표 분포에 더 가깝기 때문으로 해석된다.

전체적으로 본 논문은 “SFT를 RL에 맞게 설계한다”는 새로운 패러다임을 제시한다. 기존 SFT‑RL 파이프라인을 그대로 사용하면 SFT 단계에서의 성능 향상이 반드시 RL 단계에서의 최종 성능으로 이어지지 않으며, 오히려 역효과를 낼 수 있음을 실험적으로 입증한다. PEAR는 중요도 샘플링이라는 이론적 기반 위에 구현이 간단하고, 계산 비용도 로그 확률만 저장하면 되므로 실무 적용에 높은 효율성을 제공한다.

오프라인 SFT를 강화하면 강화학습 성능이 향상된다

초록

상세 분석

댓글 및 학술 토론

의견 남기기