검색 통합 추론을 위한 단계별 평가와 정제 프레임워크 SRRJudge

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

SRRJudge는 검색 기반 대형 추론 모델(LRM)의 중간 사고와 행동을 단계별로 평가·정제하는 자동 판정기이다. ReAct 흐름에 단계별 ‘평가‑정제’ 루프를 삽입해, 저품질 단계는 즉시 재작성하고, 높은 평점을 받은 단계만을 이어가도록 한다. 대형 모델 DeepSeek‑V3.1을 교사로 삼아 32B 규모의 Qwen 기반 모델을 미세조정해 만든 SRRJudge는 단계별 점수와 최종 정답 정확도 사이에 강한 상관관계를 보이며, 이를 활용한 반복적 거부‑샘플링 파인튜닝(RFT)으로 베이스 에이전트의 pass@1을 10% 이상 향상시킨다.

상세 분석

본 논문은 검색 통합 추론(search‑integrated reasoning)이라는 새로운 과제에 대해, 기존의 결과‑중심 강화학습(RLVR)이 제공하는 희소한 보상만으로는 중간 단계의 품질을 충분히 지도하기 어렵다는 점을 지적한다. 이를 해결하기 위해 저자들은 SRRJudge라는 단계별 평가·정제 메커니즘을 설계하였다. SRRJudge는 (1) 사고의 명료성·간결성, (2) 논리적 구조, (3) 검색 질의 적합성·답변 충실도, (4) 내용 포괄성·개선 가능성이라는 네 가지 기준을 기반으로 각 단계에 점수와 설명을 부여한다. 평가 과정은 이전 단계들의 히스토리를 입력으로 받아 현재 사고·행동을 판단하고, 필요 시 ‘정제된’ 사고·행동을 생성한다.

데이터 라벨링은 인간 비용을 최소화하기 위해, 강력한 에이전시 기반 모델인 DeepSeek‑V3.1을 활용한 자동 라벨링과 self‑consistency 기법을 결합한다. 동일한 단계에 대해 다섯 번 독립 라벨링을 수행하고 다수결로 최종 점수를 결정함으로써 라벨 신뢰성을 확보한다. 라벨 품질을 추가 검증하기 위해 점수와 최종 정답의 이진 정확도 사이의 point‑biserial 상관계수를 계산하고, 0.7 이상의 임계값을 만족하는 트래젝터만을 학습에 사용한다.

SRRJudge 자체는 Qwen‑32B 모델을 1 epoch SFT로 미세조정해 구축했으며, 이는 DeepSeek‑V3.1에 비해 연산 비용이 현저히 낮다. 실험 결과, SRRJudge는 첫 단계, 마지막 단계, 평균 단계 점수 모두에서 DeepSeek‑V3.1보다 높은 상관성을 보였으며, 특히 평균 점수의 상관계수는 0.479로 가장 우수했다.

이러한 단계별 평가기를 ReAct 흐름에 통합한 ‘평가‑정제’ 인퍼런스 파이프라인은 Best‑of‑N 샘플링(N=1~5)과 점수 기반 후보 선택·재작성 과정을 포함한다. 후보 중 최고 점수가 사전 정의된 임계값(4) 이하이면, SRRJudge가 해당 후보를 정제해 다시 제시한다. 이 루프는 최종 답변이 도출되거나 최대 루프 수에 도달할 때까지 반복된다.

또한, 저자들은 이 고품질 트래젝터를 활용해 반복적 거부‑샘플링 파인튜닝(RFT) 절차를 설계했다. 각 라운드에서 현재 정책이 생성한 트래젝터를 SRRJudge로 평가·정제하고, 높은 품질의 트래젝터만을 다음 라운드 학습에 포함한다. 두 차례의 RFT를 거친 후, 베이스 모델의 복잡한 웹 기반 QA 벤치마크(BrowseComp, BrowseComp‑ZH, XBench‑DeepSearch)에서 pass@1이 평균 10% 이상 상승했다.

핵심 기여는 (1) 검색 환경의 블랙박스 특성을 고려한 단계별 평가 프레임워크 제시, (2) 대형 모델을 교사로 활용한 비용 효율적인 라벨링 방법론, (3) 평가‑정제 인퍼런스와 RFT를 통한 실질적인 성능 향상 증명이다. 이 연구는 검색 기반 에이전트가 중간 사고·행동을 스스로 검증·수정함으로써, 보다 안정적이고 효율적인 장기 추론을 수행할 수 있음을 보여준다.

검색 통합 추론을 위한 단계별 평가와 정제 프레임워크 SRRJudge

초록

상세 분석

댓글 및 학술 토론

의견 남기기