LLM 추론 학습을 위한 기대 최대화 접근
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.
초록
본 논문은 추론 과정을 잠재 변수로 모델링하고, 이를 기대-최대화(EM) 프레임워크에 연결한다. 저자는 “필터링된 EM(FEM)” 목표식을 도출하고, 합리적 추론(trace) 샘플링 방법으로 거부 샘플링, Self‑taught Reasoner(STaR), Prompt Posterior Sampling(PPS)을 비교한다. 실험 결과 PPS가 다른 방식보다 일관되게 우수함을 보이며, 샘플링 전략이 LLM 자기 개선 성능에 결정적 영향을 미친다.
상세 분석
이 논문은 LLM이 질문 x에 대해 정답 y★를 도출하기 전에 중간 단계인 추론 근거 z를 생성한다는 점에 착안해, (x, z, y★)를 잠재 변수 모델(LVM)로 공식화한다. EM 알고리즘을 적용하면 E‑step에서 현재 파라미터 θ^(k‑1) 하에 정답 y★를 조건으로 한 z의 사후분포 π(z | x, y★; θ^(k‑1))를 추정하고, M‑step에서는 기대 로그우도 J(θ)=∑i E{z_i∼π}
댓글 및 학술 토론
Loading comments...
의견 남기기