InfoReasoner: 의미 기반 정보 이득으로 최적화된 에이전트 추론

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

InfoReasoner는 대형 추론 모델(LRM)이 외부 지식을 동적으로 검색할 때, 모델 자체 출력에서 추출한 의미적 클러스터링을 이용해 ‘정보 이득’(불확실성 감소)을 내재 보상으로 정의한다. 이 보상을 이용해 그룹 상대 정책 최적화(GRPO)로 검색 정책을 학습함으로써, 7개 QA 벤치마크에서 기존 검색 강화 모델보다 평균 5.4% 높은 정확도를 달성한다.

상세 분석

본 논문은 에이전트형 추론에서 검색 행동의 가치를 정량화하는 문제를 ‘불확실성 감소’라는 정보 이론적 관점으로 재정의한다. 저자는 POMDP 프레임워크를 도입해 잠재 변수 Y(정답 혹은 의미적 동등 클래스)에 대한 믿음 상태 bₜ를 정의하고, 이를 확률 분포로 표현한다. 불확실성 함수 U는 최소성, 볼록성, 기대 단조성이라는 세 공리를 만족하도록 설계했으며, 전형적인 샤논 엔트로피가 대표적인 구현이다. 이때 한 단계 정보 이득 IGₜ = U(bₜ) − U(bₜ₊₁) 로 정의되며, ‘정보 이득은 절대 음수가 될 수 없고, 단계별 합은 전체 불확실성 감소와 동일(텔레스코핑 가법성)’이라는 중요한 수학적 특성을 증명한다.

실제 구현에서는 인간이 만든 검색 라벨이 필요 없는 ‘출력 인식 내재 추정기’를 제안한다. 모델은 (1) 검색 전후 각각 여러 답변 시퀀스를 샘플링하고, (2) 양방향 텍스트 함축(bidirectional textual entailment) 모델을 이용해 의미적으로 동등한 답변들을 클러스터링한다. 각 클러스터에 대한 확률은 샘플링 빈도로 추정되며, 클러스터 엔트로피를 계산해 U(b) 값을 얻는다. 검색 전후 엔트로피 차이가 바로 IGₜ 가 되며, 이는 즉시 내부 보상으로 사용된다.

정책 학습은 기존 RLHF·PPO와 달리 가치 함수 없이 그룹 상대 정책 최적화(GRPO)를 적용한다. GRPO는 동일 배치 내 여러 에피소드의 평균 보상을 기준으로 베이스라인을 추정해 편향을 감소시키며, 정보 이득 보상과 최종 정답 정확도 보상을 동시에 최적화한다.

실험에서는 HotpotQA, NaturalQuestions, TriviaQA 등 7개의 다중 단계 QA 데이터셋을 사용했으며, 베이스라인으로는 RAG‑Fusion, Search‑o1, Retrieval‑Gym 등 최신 검색‑증강 모델을 선정했다. InfoReasoner는 평균 5.4%p(절대) 정확도 향상을 보였고, 특히 복잡한 다중 홉 질문에서 검색 행동의 선택이 크게 개선되었다. 분석 결과, 정보 이득 보상이 높은 검색 단계는 실제로 정답에 가까운 증거를 제공했으며, 낮은 보상을 받은 단계는 불필요하거나 오히려 혼란을 초래하는 문서를 가져왔다.

한계점으로는 (1) 의미 클러스터링에 사용된 함축 모델의 품질에 크게 의존한다는 점, (2) 샘플링 기반 추정이 계산 비용을 증가시켜 대규모 실시간 서비스에 적용하기 위해서는 효율화가 필요하다는 점을 언급한다. 향후 연구에서는 경량 함축 모델, 온‑디맨드 클러스터링, 그리고 비정형 검색(웹, 이미지 등)으로 확장하는 방안을 제시한다.

전반적으로 이 논문은 ‘검색 행동을 정보 이득이라는 밀도 높은 내재 보상으로 전환’한다는 혁신적 아이디어와, 이를 뒷받침하는 엄격한 이론 증명, 그리고 실용적인 추정·학습 파이프라인을 모두 제공함으로써, 에이전트형 LLM의 검색 최적화에 새로운 기준을 제시한다.

InfoReasoner: 의미 기반 정보 이득으로 최적화된 에이전트 추론

초록

상세 분석

댓글 및 학술 토론

의견 남기기