검색 에이전트를 위한 자기증거와 정보이득 기반 다중분기 강화학습
초록
SIGHT는 검색 기반 질문응답에서 발생하는 ‘터널 비전’ 문제를 해결하기 위해, 검색 결과를 자기증거(Self‑Evidence Support, SES)로 정제하고, 정보이득(Information‑Gain) 점수를 이용해 언제, 어떻게 새로운 탐색 분기를 생성할지 결정한다. SES와 IG‑Driven Branching을 그룹 상대 정책 최적화(GRPO)와 결합해, 적은 검색 단계로도 높은 정확도를 달성한다.
상세 분석
본 논문은 대형 언어 모델(LLM)이 외부 검색 엔진을 활용해 복합 질문에 답하는 과정에서, 초기 검색 결과의 노이즈가 누적되어 ‘터널 비전(Tunnel Vision)’ 현상을 일으키는 문제를 정확히 짚어낸다. 기존 연구들은 엔트로피 기반 무작위 분기나 퍼플렉시티 기반 탐색을 사용했지만, 검색 결과가 고도로 중복되고 신호‑대‑노이즈 비율(SNR)이 낮은 현실 환경에서는 이러한 방법이 오히려 오류를 확대한다.
SIGHT는 두 가지 핵심 메커니즘을 도입한다. 첫째, **Self‑Evidence Support(SES)**는 매 검색 단계마다 원시 <result> 블록을 LLM이 <self-evidence> 태그 안에 핵심 증거(e_t)만 남기도록 재구성한다. 이 과정은 단순 텍스트 필터링이 아니라, LLM이 질문과 연관된 의미적 핵심을 추출하도록 프롬프트를 설계함으로써, 이후 ‘Think’ 단계가 노이즈에 휘둘리지 않게 만든다.
둘째, Information‑Gain Driven Diverse Branching은 현재 관찰(o_t)의 정보이득 점수를 PMI 형태로 계산한다: IG(o_t)=log P(y*|H_t,o_t)−log P(y*|H_t). 여기서 y*는 정답, H_t는 현재까지의 대화 히스토리다. IG 점수가 낮으면 ‘Noise Trap’으로 판단해 Reflection Hint를 삽입, 에이전트가 현재 검색 결과와 목표 사이의 격차를 스스로 분석하도록 유도한다. IG가 높으면 Pivotal State Hint와 함께 현재 증거를 복제해 새로운 브랜치를 생성한다(Adaptive Branching). 중복된 쿼리가 감지되면 De‑duplication Hint를 주어 검색 키워드 다변화를 강제한다.
이러한 동적 프롬프트 개입은 기존의 무작위 분기와 달리, 탐색 시점과 탐색 방식을 정량적 IG 점수와 증거 품질에 기반해 조절한다는 점에서 혁신적이다. 또한, SES와 IG 기반 보상을 기존의 정답 정확도 보상과 함께 **Group Relative Policy Optimization(GRPO)**에 통합함으로써, 외부 검증기 없이도 에이전트가 자체적으로 탐색 전략을 학습하도록 설계했다.
실험에서는 단일 홉(single‑hop)과 다중 홉(multi‑hop) QA 벤치마크에서 SIGHT가 최신 검색‑에이전트(예: ReAct, ARPO 등) 대비 정확도와 검색 단계 효율성 모두에서 유의미하게 우수함을 보였다. 특히 복잡한 다중 홉 질문에서 IG‑Driven Branching이 불필요한 분기를 억제하고, 핵심 증거를 빠르게 포착함으로써 전체 롤아웃 비용을 크게 감소시켰다.
요약하면, SIGHT는 **노이즈 필터링(SES)**과 **정보이득 기반 탐색 제어(IG‑Branching)**라는 두 축을 통해, LLM 기반 검색 에이전트가 고노이즈 환경에서도 안정적으로 고품질 답변을 도출하도록 만든다. 이는 향후 LLM‑Tool 연동 시스템에서 탐색 효율성을 극대화하고, 오류 전이(Tunnel Vision)를 방지하는 중요한 설계 패러다임을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기