긴 여정 검색 에이전트를 위한 대비적 분기 샘플링
초록
본 논문은 장기 검색 에이전트 학습에서 발생하는 신용 할당 문제를 해결하기 위해, 트래젝터리의 말단을 중심으로 대조적 분기 샘플링을 수행하는 값‑무료 정책 최적화 기법인 BranPO를 제안한다. 어려운 샘플에 대해 난이도‑인식형 분기 빈도를 적용하고, 불필요한 행동을 마스킹하는 Redundant Step Masking을 도입해 효율성을 높인다. 다양한 멀티홉 QA 벤치마크에서 기존 GRPO 및 트리 기반 방법을 능가하는 성능을 보이며, 훈련 비용을 증가시키지 않는다.
상세 분석
BranPO는 기존 GRPO가 트래젝터리 전체에 동일한 정규화 이점을 부여해 고분산 문제를 야기하는 점을 보완한다. 논문은 먼저 검색 에이전트가 초기 단계에서는 거의 동일한 행동을 보이지만, 최종 요약·답변 단계에서 오류가 집중된다는 실증적 관찰을 제시한다. 이를 기반으로 “트레일 끝을 자르고 대조적 접미사를 재샘플링”하는 전략을 설계했으며, 이는 Monte‑Carlo 기반 트리 탐색보다 훨씬 적은 연산으로 유의미한 신용 신호를 제공한다.
BranPO의 핵심은 두 단계로 구성된다. 첫째, 초기 롤아웃 후 트레일의 말단을 일정 길이 L만큼 잘라내고, 동일한 프리픽스를 유지한 채 여러 대안적 서픽스를 생성한다. 이때 원래 트레일이 성공이면 실패 서픽스를, 실패이면 성공 서픽스를 찾아 대조적 쌍을 만든다. 둘째, 이러한 대조적 쌍에 대해 GRPO와 동일한 그룹 정규화 이점을 적용하되, 프리픽스와 서픽스 각각에 별도의 상대 이점을 계산한다. 이렇게 하면 프리픽스는 “공통 기반”으로, 서픽스는 “분기된 선택”으로 구분되어 더 정확한 신용 할당이 가능해진다.
효율성 강화를 위해 난이도‑인식 분기 샘플링을 도입한다. 초기 롤아웃의 그룹 정확도를 기준으로 쉬운 샘플은 단순 분기(한 번의 재샘플링)만 수행하고, 어려운 샘플이나 원래 실패한 트레일은 재귀적 분기(다중 단계 재샘플링)를 적용한다. 이는 계산 자원을 어려운 사례에 집중시켜 샘플 효율을 크게 높인다.
또한 Redundant Step Masking(RSM) 기법을 통해, 재샘플링 과정에서 의미 없는 연속 행동(예: 불필요한 검색 쿼리 반복)을 자동으로 마스킹한다. RSM은 서픽스 내에서 동일한 행동이 반복될 경우 해당 토큰의 이점을 0으로 설정해, 정책 업데이트가 실제 정보량이 높은 단계에만 집중되도록 한다.
실험에서는 HotpotQA, 2WikiMultihopQA 등 멀티홉 QA 데이터셋과 웹 검색 기반 과제에 대해 BranPO를 적용했으며, 동일한 훈련 예산 하에서 GRPO, Tree‑GRPO, GiGPO 등 강력한 베이스라인을 모두 앞섰다. 특히 Pass@K 지표에서 K가 커질수록 재샘플링 효과가 두드러졌으며, 어려운 샘플에서의 정확도 향상이 전체 성능 상승의 주요 요인으로 확인되었다.
이론적으로는 BranPO가 GRPO의 안정적인 그라디언트 특성을 유지하면서, 대조적 선호 학습을 통해 신용 할당 모호성을 감소시킨다는 점을 증명한다. 전체적으로, 논문은 “긴 여정” 에이전트 학습에서 말단 결정이 핵심이라는 직관을 정량화하고, 이를 활용한 효율적이고 안정적인 학습 프레임워크를 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기