LLM 사후학습을 위한 정책 거울 하강법의 로그‑분할 근사와 암시적 정규화
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.
초록
본 논문은 대규모 언어 모델(LLM) 사후학습에서 정책 거울 하강법(PMD)의 로그‑분할 함수를 평균 보상으로 근사하는 PMD‑MEAN 알고리즘을 제안한다. 이 근사는 Lambert‑W 함수를 통한 닫힌 형태 해를 갖고, KL 정규화에 χ² 정규화를 혼합한 적응형 목표를 암시적으로 최적화한다. 결과적으로 낮은 평균 보상 상황에서 보수적인 업데이트가 이루어져 샘플 제한이 심한 환경에서도 안정성과 효율성이 크게 향상된다.
상세 분석
PMD‑MEAN은 기존 PMD가 요구하는 로그‑분할 함수 Zₜ(x)=E_{y∼πₜ}
댓글 및 학술 토론
Loading comments...
의견 남기기