다중 홉 검색을 위한 강화학습 기반 플래너 실행기 구조 OPERA

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

OPERA는 목표 계획 모듈과 이유‑실행 모듈을 계층적으로 결합한 새로운 RAG 프레임워크로, 다중 홉 질문을 서브 목표로 분해하고, 각 서브 목표마다 전문화된 분석‑답변 에이전트와 질의 재작성 에이전트를 활용해 효율적인 검색·추론·필터링을 수행한다. 학습은 다중 에이전트 진행형 그룹 상대 정책 최적화(MAPGRPO)를 통해 각 에이전트에 맞춤형 보상을 제공하며, HotpotQA·2WikiMultiHopQA·Musique 등에서 기존 최첨단 방법보다 크게 향상된 EM·F1 점수를 기록한다.

상세 분석

OPERA는 기존 RAG 시스템이 겪는 “계획‑검색‑필터링” 간의 약한 결합을 근본적으로 해소하기 위해 두 단계로 명확히 역할을 구분한다. 첫 번째 단계인 Goal Planning Module(GPM)은 전용 Plan Agent를 통해 복잡한 질문을 논리적 순서와 의존 관계를 갖는 서브 목표 집합으로 변환한다. 이때 플래너는 논리적 일관성, 구조적 정확성, 최종 실행 성공률을 동시에 최적화하는 복합 보상 함수를 사용한다(식 7). 플래너가 생성한 서브 목표는 자리표시자(예:

다중 홉 검색을 위한 강화학습 기반 플래너 실행기 구조 OPERA

초록

상세 분석

댓글 및 학술 토론

의견 남기기