정적 그래프를 깨다: 상황 인식 탐색으로 강화된 RAG

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

CatRAG는 정적 지식 그래프의 전이 확률을 쿼리‑특화 방식으로 동적으로 재조정하여, 다중 홉 질문에 필요한 전체 증거 사슬을 안정적으로 회수한다. 심볼릭 앵커, 쿼리‑인식 엣지 가중치, 핵심 사실 패시지 가중치 강화라는 세 가지 메커니즘을 결합해 의미적 표류를 억제하고, 기존 HippoRAG2 대비 추론 완전성을 크게 향상시킨다.

상세 분석

본 논문은 Retrieval‑Augmented Generation(RAG) 분야에서 구조‑기반 접근법이 직면한 “정적 그래프 오류(Static Graph Fallacy)”를 정확히 진단한다. 기존 HippoRAG·HippoRAG2는 Knowledge Graph(KG) 위에 Personalized PageRank(PPR)를 적용해 다중 홉 증거를 탐색하지만, 인덱싱 단계에서 고정된 전이 행렬 T를 사용한다. 이 고정성은 (1) 쿼리와 무관한 엣지 가중치가 의미적 드리프트를 일으키고, (2) 고차원 허브 노드가 확률 질량을 흡수해 중요한 하위 증거에 도달하지 못하게 만든다. 결과적으로 Recall은 높지만 “Full Chain Retrieval”(전체 증거 사슬 회수)에서는 급격히 성능이 떨어진다.

CatRAG는 이러한 문제를 해결하기 위해 세 가지 핵심 모듈을 제안한다.

Symbolic Anchoring: NER 등으로 추출된 쿼리 엔티티를 약한 시드(재설정 확률 ε)로 그래프에 삽입한다. 이는 PPR이 진행 중에 해당 엔티티로 지속적으로 “중력”을 받게 하여, 무관한 허브 노드로의 확산을 억제한다. 앵커는 완전한 시드가 아니라 보조적인 제어점이므로, 원래의 트리플 기반 탐색을 방해하지 않는다.
Query‑Aware Dynamic Edge Weighting: 두 단계의 coarse‑to‑fine 전략을 사용한다. 첫 단계에서는 벡터 유사도 기반으로 각 시드 엔티티의 아웃고잉 엣지를 상위 K 개만 남겨 구조적 필터링을 수행한다. 두 번째 단계에서는 LLM을 호출해 각 남은 엣지에 대해 “Irrelevant, Weak, High, Direct” 등급을 부여하고, 이를 실수 가중치 ϕ(L)와 기존 정적 가중치 w_uv에 곱해 동적 전이 행렬 \hat{T}_q를 만든다. 이 과정은 전이 확률을 쿼리 의도에 맞게 비대칭적으로 조정함으로써, 의미적 표류를 최소화한다.
Key‑Fact Passage Weight Enhancement: Passage 노드와 엔티티 노드 사이의 컨텍스트 엣지 중, 사전 필터링 단계에서 확인된 “핵심 사실”(verified seed triples)과 연결된 경우에만 가중치 β 만큼 부스트한다. 이는 LLM 호출 없이도 증거가 명시된 패시지를 우선시하게 하여 비용 효율성을 확보한다.

실험은 MuSiQue‑2Wiki, HotpotQA, HoVer 등 네 개의 다중 홉 베엔치마크에서 수행되었으며, CatRAG는 기존 최첨단(HippoRAG2, LightRAG 등) 대비 Recall은 소폭 상승하지만, Full Chain Retrieval 점수에서 10‑15%p 이상의 개선을 기록한다. 특히 “reasoning completeness”(전체 증거 사슬 회수)에서 현저한 차이를 보이며, 이는 정적 그래프가 초래한 의미적 드리프트를 효과적으로 억제했음을 의미한다. Ablation 연구에서는 Symbolic Anchoring만 적용해도 허브 노드에 대한 확산이 감소하고, Dynamic Edge Weighting이 없을 경우 전체 체인 회수율이 급격히 떨어지는 등 각 모듈의 기여도가 명확히 입증된다. 또한, 동적 가중치 계산에 소요되는 LLM 호출 수를 제한하는 설계(코스‑그레인 필터링 + 선택적 파인‑그레인) 덕분에 전체 추론 지연시간은 기존 그래프 기반 방법과 비슷한 수준을 유지한다.

이 논문은 정적 전이 행렬이 갖는 근본적인 한계를 “쿼리‑조건부 전이 행렬”로 대체함으로써, 구조‑기반 RAG가 실제 다중 홉 추론 시나리오에서도 신뢰성 있게 동작하도록 만든 중요한 진전이다. 향후 연구에서는 (1) 더 복잡한 관계형 KG(예: 속성‑값 트리플)와의 통합, (2) LLM‑경량화 모델을 이용한 실시간 동적 가중치 추정, (3) 사용자 피드백을 통한 온라인 전이 행렬 업데이트 등으로 확장 가능성이 기대된다.

정적 그래프를 깨다: 상황 인식 탐색으로 강화된 RAG

초록

상세 분석

댓글 및 학술 토론

의견 남기기