정확하고 안정적인 대형 언어 모델 파인튜닝, 앵커드 슈퍼바이즈드 파인튜닝
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.
초록
본 논문은 기존 SFT와 RL 사이의 효율‑성·일반화 트레이드오프를 해소하기 위해 DFT를 RWR 프레임워크로 분석하고, 분포 드리프트 문제를 KL 정규화로 보완한 앵커드 슈퍼바이즈드 파인튜닝(ASFT)을 제안한다. ASFT는 수학 추론, 의료 지식, 코드 생성 등 다양한 벤치마크에서 SFT·DFT를 모두 능가하면서도 계산 비용은 최소화한다.
상세 분석
본 연구는 포스트‑트레이닝 단계에서 SFT가 보여주는 “빠른 수렴·저비용” 장점과 RL이 제공하는 “높은 일반화·높은 변동성” 사이의 근본적인 균형 문제를 재조명한다. 저자들은 DFT가 기존 SFT의 보상 구조가 확률이 0에 가까워질 때 무한히 커지는 변동성을 완화하기 위해 토큰 확률에 기반한 가중치를 적용한다는 점을 지적한다. 이를 보다 이론적으로 정립하기 위해 보상 가중 회귀(Reward‑Weighted Regression, RWR) 프레임워크를 도입하였다. RWR는 정책 πθ와 기준 정책 πref 사이의 중요도 가중치를 이용해 RL 목표 J(θ)=Eπθ
댓글 및 학술 토론
Loading comments...
의견 남기기