다중턴 검색 정책 최적화의 이중 균질화 딜레마를 깨다

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 다중턴 도구 연동 추론에서 발생하는 “이중 균질화 딜레마”(프로세스 수준과 그룹 내 보상 균질화)를 분석하고, 첫 번째 정답 등장 시점을 이용해 부분 보상을 할당하는 First‑Occurrence Latent Reward(FOLR) 메커니즘을 제안한다. 이를 기반으로 Turn‑level Stage‑aware Policy Optimization(TSPO)를 설계해 각 턴마다 보상을 재구성하고, 그룹 상대 정책 최적화(GRPO)와 결합해 보상 분산을 회복한다. 실험 결과 Qwen2.5‑3B와 7B 모델에서 각각 평균 24 %와 13.6 %의 성능 향상을 달성한다.

상세 분석

TSPO 논문은 다중턴 툴 호출 기반 추론이 현재 대부분 결과‑레벨 이진 보상에 의존한다는 근본적인 한계를 지적한다. 이러한 보상 구조는 두 가지 차원에서 균질화를 초래한다. 첫 번째는 프로세스 수준 균질화로, 중간 단계에서 올바른 증거를 획득했음에도 최종 답이 틀리면 0점이 부여되어 중간 과정의 가치가 사라진다. 저자들은 이를 “Outcome‑Minus / Process‑Plus”와 같은 근접 실패 케이스를 통해 실증한다. 두 번째는 그룹 내 균질화이다. GRPO는 동일 질문에 대해 샘플링된 여러 트래젝터리를 그룹화해 평균·표준편차로 정규화하지만, 이진 보상만 존재하면 대부분의 그룹이 전부 0점(또는 전부 1점)으로 구성돼 표준편차가 0이 된다. 결과적으로 정책 그라디언트가 사라져 학습이 정체된다.

이 문제를 해결하기 위해 논문은 “첫 번째 등장 가설(First‑Occurrence Hypothesis)”을 제시한다. 실험적으로 정답이 중간 피드백에 나타나는 경우와 최종 정답이 맞는 경우가 강하게 상관관계가 있음을 χ² 검정으로 입증한다. 이를 기반으로 FOLR 메커니즘을 설계한다. 트래젝터리 내에서 정답이 처음 등장한 턴 t를 찾고, 그 이전 턴에는 부분 보상 α(0≤α≤1)를, t에서는 완전 보상 1을, 이후 턴은 0을 할당한다. 이렇게 하면 근접 성공(O−/P+) 트래젝터리도 양의 보상을 받아 그룹 내 보상 분산을 회복한다.

TSPO는 MDP를 턴 레벨로 재정의하고, 각 턴마다 r_i,k 를 구한 뒤 그룹 평균·표준편차로 정규화한 ˆA_i,k 를 사용해 정책 업데이트를 수행한다. 기존 GRPO의 ˆA_i = r_i − μ/σ 와 달리, 턴 레벨 정규화는 모든 그룹, 특히 전부 0점인 “all‑wrong” 그룹에서도 의미 있는 그라디언트를 생성한다. 또한 변수 길이 트래젝터리를 패딩하고 마스크 처리함으로써 구현상의 복잡성을 최소화한다.

실험에서는 7개의 오픈 도메인 QA 데이터셋을 사용해 Qwen2.5‑3B와 7B 모델에 적용하였다. TSPO는 베이스라인(기존 GRPO, PPO, RLHF 등) 대비 평균 24 %와 13.6 %의 정확도 향상을 보였으며, 특히 “all‑wrong” 그룹 비중이 높은 초기 학습 단계에서 급격한 성능 개선을 확인했다. Ablation 연구에서는 α 값을 0.5, 0.8, 1.0으로 변동시켰을 때 α=1.0이 가장 안정적인 성능을 제공함을 보여준다.

결과적으로 TSPO는 외부 보상 모델이나 추가 라벨링 없이도 다중턴 추론의 프로세스 신호를 보존하고, 그룹 내 보상 분산을 인위적으로 회복함으로써 기존 RL 기반 검색 정책의 한계를 효과적으로 극복한다는 점에서 의미가 크다.

다중턴 검색 정책 최적화의 이중 균질화 딜레마를 깨다

초록

상세 분석

댓글 및 학술 토론

의견 남기기