그래프 기반 강화학습을 활용한 다중 홉 추론 프레임워크

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

GraphRAG‑R1은 LLM이 복잡한 다중 홉 질문을 해결하도록 설계된 새로운 Graph Retrieval‑Augmented Generation 프레임워크이다. 프로세스 제약형 보상(PRA, CAF)과 단계별 학습 전략을 도입하고, 롤아웃‑위드‑씽킹을 지원하는 수정된 GRPO 알고리즘으로 LLM을 강화한다. 하이브리드 그래프‑텍스트 검색을 결합해 지식 활용도를 높였으며, 인‑도메인·아웃‑도메인 모두에서 기존 GraphRAG 방법들을 크게 능가한다.

상세 분석

본 논문은 기존 GraphRAG 시스템이 복잡한 다중 홉 추론에서 보이는 두 가지 주요 약점, 즉 “얕은 검색(shallow retrieval)”과 “과도한 사고(over‑thinking)”을 해결하기 위해 강화학습(RL) 기반의 프로세스 제약형 보상 설계를 제안한다. 첫 번째 보상인 Progressive Retrieval Attenuation(PRA)은 추론 깊이가 증가함에 따라 검색 보상의 강도를 점진적으로 감소시켜, 초기 단계에서 필수적인 검색을 장려하고 불필요한 반복 검색을 억제한다. 두 번째 보상인 Cost‑Aware F1(CAF)은 최종 답변의 F1 점수와 함께 연산 비용(예: 호출 횟수, 토큰 사용량)을 고려해 모델이 정확도와 효율성을 동시에 최적화하도록 유도한다.

학습 과정은 세 단계로 구성된 “phase‑dependent training” 전략을 따른다. ① Cold‑Start 단계에서는 출력 형식과 기본 질의‑응답 패턴을 학습시켜 초기 불안정성을 완화한다. ② PRA 단계에서는 검색 빈도와 정확성을 중심으로 정책을 미세조정하고, ③ CAF 단계에서는 최종 답변 품질과 비용 효율성을 동시에 최적화한다. 이렇게 단계별로 보상을 달리 적용함으로써, 모델이 초기에는 탐색적 행동을, 이후에는 비용‑효율적인 행동을 학습하도록 설계되었다.

핵심 알고리즘은 기존 Group Relative Policy Optimization(GRPO)을 확장한 “Rollout‑with‑Thinking” 버전이다. 이 버전은 LLM이 텍스트 생성 중에 동적으로 외부 검색 도구를 호출할 수 있도록 하며, 호출 결과를 즉시 다음 토큰 생성에 반영한다. 따라서 정책 네트워크는 “생성‑검색‑생성” 루프를 직접 경험하고, 이를 통해 복잡한 논리 흐름을 학습한다.

또한, 저자는 그래프와 텍스트 정보를 동시에 활용하는 “Hybrid Graph‑Textual Retrieval”을 도입한다. 그래프 구조는 엔터티 간 관계와 계층적 의존성을 명확히 표현하고, 텍스트 파편은 풍부한 서술적 컨텍스트를 제공한다. 두 정보를 결합함으로써, 단일 텍스트 기반 검색이 놓치기 쉬운 미묘한 의미 연결을 보완한다.

실험에서는 대규모 인‑도메인(예: 과학·역사 QA)와 아웃‑도메인(예: 일반 상식·복합 추론) 벤치마크에서 GraphRAG‑R1이 기존 GraphRAG, ToG, HippoRAG 등과 비교해 평균 7~12%p의 F1 향상을 기록했다. 특히 검색 호출 횟수와 연산 비용 면에서 CAF 보상이 효과적으로 과도한 호출을 억제했으며, PRA 보상은 초기 단계에서 필요한 핵심 서브쿼리를 정확히 찾아내는 데 기여했다.

전체적으로 이 연구는 LLM‑기반 지식 검색 시스템에 강화학습을 체계적으로 적용한 첫 사례 중 하나이며, 프로세스 제약형 보상 설계와 단계별 학습 전략이 복잡한 추론 문제 해결에 실질적인 이점을 제공한다는 점을 입증한다.

그래프 기반 강화학습을 활용한 다중 홉 추론 프레임워크

초록

상세 분석

댓글 및 학술 토론

의견 남기기