계층적 인과 지식 그래프 설계로 강화된 RAG

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

HugRAG는 계층적 모듈 구조와 인과 게이트를 도입해 그래프 기반 RAG의 정보 고립과 잡음 문제를 해결한다. 인과 관계를 명시적으로 모델링함으로써 전역 검색 효율과 지역 정밀도를 동시에 높이며, 새로운 HolisQA 데이터셋을 통해 기존 방법들을 지속적으로 능가함을 입증한다.

상세 분석

본 논문은 기존 그래프 기반 RAG가 “표면 수준의 노드 매칭”에 과도하게 의존하고, 인과 관계를 고려하지 않아 스팸 노드와 비관련 정보를 많이 회수한다는 근본적인 한계를 지적한다. 특히, 대규모 지식 그래프가 모듈화될 때 발생하는 정보 고립(global recall 감소)과 지역 잡음(precision 감소) 두 가지 구조적 병목을 명확히 정의한다. 이를 해결하기 위해 제안된 HugRAG는 세 가지 핵심 설계 요소를 결합한다.

계층적 그래프 구조(H) – 원시 엔티티 그래프를 Leiden 알고리즘으로 다중 레벨 모듈(커뮤니티)로 분할하고, 각 모듈에 자연어 요약을 부여해 상위‑하위 스키마를 형성한다. 이렇게 하면 동일한 의미 영역이 하나의 모듈에 집중되면서도, 상위 레벨에서 전역적인 컨텍스트를 제공한다.
인과 게이트(G_c) – 모듈 쌍 사이에 LLM 기반 인과 추론을 적용해 “m_i → m_j” 형태의 인과 연결을 점수화하고, 사전 정의된 임계값 τ 이상인 경우에만 게이트를 삽입한다. 이 게이트는 전통적인 그래프 탐색이 모듈 경계에 머무는 현상을 깨뜨리고, 원격 모듈 간에도 인과적으로 타당한 경로를 열어준다.
온라인 검색·필터링 파이프라인 – 질의 q에 대해 각 레벨 ℓ에서 상위 K_ℓ개의 시멘틱 시드를 선택하고, 인과 게이트를 따라 제한된 hop h만큼 확장한다(‘Gated Traversal’). 이후 LLM이 제공하는 인과 경로 필터(Causal Filter)를 적용해 V_sp(스팸 노드)를 제거하고, 최종 서브그래프 S*를 생성한다. 이 서브그래프는 LLM에게 직접 전달돼 ‘LLM‑Generate’ 단계에서 답변 y를 생성한다.

실험에서는 5개 도메인(전기·전력, 의료, 법률, 소프트웨어, 일반 상식)과 새로 구축한 HolisQA(복합 인과 추론 요구)에서 기존 GraphRAG, LeanRA‑G, CausalRA‑G 등을 모두 앞선다. 특히, Recall(전역 회수율)과 Precision(정확도) 사이의 트레이드오프를 인과 게이트가 효과적으로 중재함을 보여준다. Ablation 연구에서는 (1) 인과 게이트 제거 시 Recall이 12%p 급감, (2) 다중 레벨 시드 없이 단일 레벨 시드만 사용할 경우 Precision이 9%p 감소함을 확인한다.

이러한 설계는 그래프 규모가 수억 노드 수준으로 확대돼도 모듈 간 인과 연결만 저장하면 메모리와 연산 비용을 크게 절감할 수 있다는 스케일러빌리티 장점을 제공한다. 또한, 인과 관계를 명시적으로 모델링함으로써 “왜”라는 설명 가능성을 확보하고, LLM이 생성한 답변에 대한 근거 추적이 가능해진다.

전반적으로 HugRAG는 지식 조직(Knowledge Organization), 인과 인식(Causal Awareness), 스케일러블 검색(Scalable Retrieval) 세 축을 동시에 강화한 최초의 프레임워크라 할 수 있다.

계층적 인과 지식 그래프 설계로 강화된 RAG

초록

상세 분석

댓글 및 학술 토론

의견 남기기