동적 계획과 추론을 통한 지식 하이퍼그래프 기반 RAG 혁신

동적 계획과 추론을 통한 지식 하이퍼그래프 기반 RAG 혁신
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

PRoH는 질문에 맞춰 지식 하이퍼그래프(KH)를 동적으로 탐색하는 프레임워크로, 컨텍스트‑aware 플래닝, DAG 형태의 질문 분해, 그리고 Entity‑Weighted Overlap(EWO) 기반 경로 검색을 결합한다. 정적 플래닝·비적응형 검색·구조 활용 부족이라는 기존 한계를 극복하고, 다중 홉 질의응답에서 F1 점수를 평균 19.73 %, 생성 평가(G‑E) 점수를 8.41 % 향상시킨다.

상세 분석

PRoH는 기존 지식 하이퍼그래프 기반 RAG 모델이 안고 있던 세 가지 근본적인 문제—정적 검색 계획, 비적응형 검색 실행, 그리고 하이퍼그래프 구조와 의미를 얕게 활용하는 점—을 해결하기 위해 설계되었다. 첫 번째 핵심 요소는 컨텍스트‑aware 플래닝 모듈이다. 질문이 주어지면, 모델은 먼저 질문에 연관된 토픽 엔터티를 중심으로 로컬 하이퍼그래프 서브그래프를 스케치한다. 이 서브그래프는 엔터티와 하이퍼엣지의 연결성을 시각화한 작은 맵으로, LLM에게 “어디서부터 탐색을 시작해야 하는가”에 대한 구체적 힌트를 제공한다. 이를 통해 LLM이 생성하는 초기 추론 계획이 실제 그래프 토폴로지와 일치하도록 유도한다.

두 번째 혁신은 구조화된 질문 분해와 동적 DAG이다. 기존 방법은 질문을 일렬의 서브퀘스트로 나누고 순차적으로 처리했지만, PRoH는 서브퀘스트 간 논리적 선후 관계를 Directed Acyclic Graph(DAG) 형태로 모델링한다. 각 노드는 서브퀘스트, 각 엣지는 의존 관계를 나타낸다. 중요한 점은 이 DAG가 반복적인 재정제 과정을 거친다는 것이다. 초기 DAG가 생성된 뒤, 현재 추론 상태에서 얻은 답변과 경로 정보를 바탕으로 새로운 서브퀘스트가 추가되거나 기존 노드가 수정된다. 이렇게 하면 질문의 복잡도가 높거나 중간에 새로운 정보가 필요할 때도 유연하게 대응할 수 있다. 또한, PRoH는 상태 공간 탐색을 도입해 여러 후보 경로를 동시에 유지한다. 하나의 서브퀘스트에 대해 다중 후보 답변을 허용하고, 각각의 후보가 새로운 탐색 트리의 분기점이 된다. 이 멀티‑트래젝터리 접근은 n‑ary 관계가 내포된 하이퍼그래프에서 발생할 수 있는 불확실성을 효과적으로 관리한다.

세 번째 핵심은 Entity‑Weighted Overlap(EWO) 기반 경로 검색이다. 전통적인 하이퍼그래프 탐색은 단순히 엔터티 겹침 여부만을 기준으로 이웃 하이퍼엣지를 선택한다. PRoH는 각 이웃 하이퍼엣지에 대해, 현재 서브퀘스트와의 의미적 연관성을 엔터티 가중치(예: 엔터티 임베딩 유사도, 텍스트 설명의 TF‑IDF 점수 등)로 정량화한다. 구체적으로, 현재 하이퍼엣지 e와 이웃 하이퍼엣지 e′ 사이의 겹치는 엔터티 집합 V(e)∩V(e′)에 대해 각 엔터티 v에 가중치 w(v) = sim(z(v), z(q_sub))를 부여하고, 전체 overlap score = ∑_{v∈V(e)∩V(e′)} w(v) 로 계산한다. 이 점수가 높은 하이퍼엣지를 우선 탐색함으로써, 의미적 일관성을 유지하면서도 그래프 구조를 활용한다. 결과적으로, 검색 단계에서 불필요한 노이즈 하이퍼엣지를 배제하고, 다중 홉 추론에 필요한 핵심 경로를 효율적으로 찾아낸다.

실험에서는 여러 도메인(위키피디아, 의료, 법률 등)에서 PRoH가 기존 최첨단 HyperGraphRAG 대비 평균 F1 + 19.73 %와 G‑E + 8.41 %를 기록했다. 특히, 장거리 다중 홉 질의(예: 4‑5 홉 이상)에서 정확도와 재현율이 크게 상승했으며, Ablation Study를 통해 각 모듈(플래닝, DAG, EWO)의 기여도를 정량화했다. 플래닝 없이 정적 검색만 사용할 경우 F1가 12 % 감소했고, EWO를 빼면 경로 선택의 정확도가 9 % 하락했다.

한계점으로는 (1) 플래닝 단계의 비용—LLM에게 서브그래프 스케치를 요청하는 과정이 추가적인 토큰 사용을 초래한다는 점, (2) 동적 DAG의 복잡도—질문이 매우 복잡할 경우 DAG가 급격히 확장돼 탐색 트리의 폭이 넓어질 수 있다, (3) 엔터티 임베딩 의존성—EWO 점수는 사전 학습된 엔터티 임베딩 품질에 크게 좌우된다. 향후 연구에서는 플래닝 프롬프트를 경량화하고, DAG 성장 억제 전략(예: 비용‑이득 기반 가지치기)과 더 강건한 엔터티 표현 학습을 통해 이러한 문제를 완화할 계획이다. 전반적으로 PRoH는 하이퍼그래프의 n‑ary 관계를 실질적으로 활용하면서, 동적 계획·추론·검색을 통합한 새로운 RAG 패러다임을 제시한다.


댓글 및 학술 토론

Loading comments...

의견 남기기