대규모 언어 모델 없이도 가능한 효율·검증 가능한 다중 홉 질의응답
📝 Abstract
Multi-hop question answering over knowledge graphs remains computationally challenging due to the combinatorial explosion of possible reasoning paths. Recent approaches rely on expensive Large Language Model (LLM) inference for both entity linking and path ranking, limiting their practical deployment. Additionally, LLM-generated answers often lack verifiable grounding in structured knowledge. We present two complementary hybrid algorithms that address both efficiency and verifiability: (1) LLM-Guided Planning that uses a single LLM call to predict relation sequences executed via breadth-first search, achieving near-perfect accuracy (micro-F1 > 0.90) while ensuring all answers are grounded in the knowledge graph, and (2) Embedding-Guided Neural Search that eliminates LLM calls entirely by fusing text and graph embeddings through a lightweight 6.7M-parameter edge scorer, achieving over 100 times speedup with competitive accuracy. Through knowledge distillation, we compress planning capability into a 4B-parameter model that matches large-model performance at zero API cost. Evaluation on MetaQA demonstrates that grounded reasoning consistently outperforms ungrounded generation, with structured planning proving more transferable than direct answer generation. Our results show that verifiable multi-hop reasoning does not require massive models at inference time, but rather the right architectural inductive biases combining symbolic structure with learned representations.
💡 Analysis
**
1. 연구 배경 및 문제 정의
- 다중 홉 QA는 KG 상에서 여러 관계를 연쇄적으로 탐색해야 하므로 탐색 공간이 급격히 확대된다.
- 기존 Plan‑on‑Graph, Think‑on‑Graph 등은 매 홉마다 LLM을 호출해 “생성 → 실행” 루프를 반복하므로 시간·비용이 비효율적이다.
- LLM 자체는 방대한 텍스트 코퍼스로부터 일반화된 언어 능력을 얻지만, 전문 도메인에서는 환각(hallucination) 문제가 심각해 검증 가능성이 떨어진다.
2. 제안된 두 가지 하이브리드 접근법
| 접근법 | 핵심 아이디어 | 주요 장점 | 한계 |
|---|---|---|---|
| LLM‑Guided Planning | 질문 → 한 번의 LLM 호출 → 관계 시퀀스(예: |
📄 Content
지식 그래프(KG)와 대형 언어 모델(LLM)의 통합에 관한 연구 개요
지식 그래프(KG)는 도메인 특화된 구조화된 정보를 표현하는 강력한 구조로, 검증 가능한 다중 홉 추론을 지원한다. 한편, 방대한 웹 규모 코퍼스로 사전 학습된 대형 언어 모델(LLM)은 다양한 작업에 걸쳐 인상적인 유창성과 일반화를 달성하였다. 그러나 이러한 일반성 및 이질적인 인터넷 데이터에 대한 엔드‑투‑엔드 학습은 중요한 한계를 초래한다.
LLM은 폭넓고 비정제된 인터넷 텍스트를 기반으로 학습되기 때문에, 전문 분야나 도메인‑특화 상황에서 신뢰할 수 있는 사실 정확성을 항상 보장하지 못한다. 프롬프트나 검색 기반 보강을 통해 완전한 컨텍스트 정보를 제공하더라도 결과는 완전히 신뢰할 수 없다. LLM은 환각(hallucination), 즉 유창하고 설득력은 있지만 사실과 다르거나 근거가 없는 출력을 생성하는 것으로 잘 알려져 있다[1]‑[3]. 최근 연구들은 환각이 고위험 시나리오에서 LLM을 배포하는 데 가장 시급한 장벽 중 하나임을 강조한다.
의료, 사이버 보안, 금융 분석 등과 같은 중요한 도메인에서는 단순히 유창한 답변을 생성하는 것만으로는 충분하지 않다. 답변은 검증 가능한 증거에 기반해야 하며, 추론 과정은 투명하고 추적 가능해야 한다. 지식 그래프는 구조화된 도메인 지식을 인코딩하고 관계에 대한 명시적 탐색 및 추론을 가능하게 함으로써 이러한 기반을 제공한다[4]‑[6]. 최근 연구에서는 LLM 기반 추론을 활용해 비구조화 텍스트로부터 직접 KG를 구축하는 방법도 탐구하고 있다[7]. 일단 그래프가 구축되면, 효율적으로 그래프를 탐색하고 자연어 질의에 답하는 능력이 실용적인 배포에 필수적이다. 따라서 KG와 LLM을 결합하는 것이 환각을 감소시키고 사실 일관성을 향상시키며 모델 출력의 해석 가능성을 높이는 유망한 방향으로 떠오르고 있다.
기존 접근 방식의 한계
Plan‑on‑Graph[8]와 Think‑on‑Graph[9]와 같은 최근 방법들은 LLM을 이용해 지식 그래프 위에서 직접 추론 경로를 계획한다. 이러한 프레임워크에서는 모델이 반복적인 LLM 호출을 통해 한 번에 한 홉씩 탐색 단계를 생성하며, 반복적인 추론을 수행한다. 이 방식은 해석 가능성을 높이고 자연어 기반 추론을 가능하게 하지만, 확장성 병목을 야기한다. 각 탐색 단계마다 별도의 LLM 호출이 필요하므로 전체 과정이 계산적으로 비싸고 지연이 크게 발생한다. 특히 대규모 그래프나 프로덕션 수준 시스템에서는 실질적으로 실행이 어려울 수 있다. 노드와 관계가 증가함에 따라 가능한 탐색 시퀀스의 조합 폭발이 비용을 더욱 가중시킨다.
제안하는 두 가지 효율적 탐색 전략
본 연구에서는 이러한 문제를 해결하기 위해 두 가지 상보적인 전략을 제안하고 실험한다.
단일(또는 제한된) 계획 단계에서 최적 관계 시퀀스를 식별
최신 LLM은 향상된 계획·추론 능력을 갖추고 있다. 따라서 다중 홉 추론 과정에서 반복 호출을 최소화하고, 한 번 혹은 소수의 계획 단계만으로 탐색할 관계 순서를 결정할 수 있는지를 조사한다.텍스트 임베딩과 그래프 임베딩을 결합한 다중모달 접근
추가 LLM 호출 없이 전체 그래프를 탐색할 수 있도록 텍스트와 그래프 임베딩을 융합한다. 임베딩 기반 탐색은 경량화·확장성이 뛰어나며, 대형 모델을 사용할 때 발생하는 비용과 지연을 크게 줄인다.
이 두 전략을 결합하면 신뢰할 수 있고 효율적이며 설명 가능한 추론 시스템을 구현할 수 있으며, 고위험 도메인에서 LLM을 보다 안전하게 배포할 수 있는 길을 열어준다.
1. 배경 및 관련 연구
1.1 지식 그래프와 다중 홉 추론
지식 그래프는 삼중항 ((h, r, t))의 집합으로 세계 지식을 구조화한다. 여기서 (h)와 (t)는 엔터티, (r)은 두 엔터티 사이의 의미 관계를 나타낸다[10],[11]. 명시적 관계 정보를 포착함으로써 KG는 복잡한 도메인에서 해석 가능한 추론의 기반을 제공한다. 다중 홉 추론은 중간 관계를 통해 먼 엔터티를 연결해 복합 질의에 답하는 과정이며, 예를 들어 “‘The Terminal’에 출연하면서 동시에 감독한 사람은 어떤 영화를 감독했는가?”와 같은 질문을 해결하려면 **‘출연’**과 ‘감독’ 관계를 차례로 따라가야 한다. 이렇게 하면 중간 추론 체인을 드러내어 설명 가능성을 확보한다[12],[13].
1.2 대형 언어 모델의 한계
GPT[14], LLaMA[15], Qwen[16] 등 LLM은 인터넷에서 수집한 방대한 텍스트 코퍼스로 사전 학습된다. 광범위한 사전 학습은 일반화와 유창성을 제공하지만, 전문 분야에서는 사실 신뢰성이 떨어진다. 비정제 코퍼스와 환각 현상 때문에 LLM은 사실과 다르거나 검증 불가능한 진술을 생성한다[1]‑[3]. 검색 기반 생성(RAG)[17]이나 문서 프롬프트는 사실성을 어느 정도 개선하지만, 여전히 구조화된 추론이 아니라 텍스트 매칭에 의존한다. 따라서 의료, 보안, 금융 등에서 요구되는 논리적 일관성·관계 연쇄·증거 추적성을 만족시키기 어렵다.
1.3 임베딩 기반 KG 탐색
대규모 그래프에 대한 효율적인 추론을 위해 임베딩 기반 접근이 활발히 연구되고 있다. TransE[12], DistMult[18], ComplEx[19], RotatE[13] 등은 관계 의미를 연속 벡터 공간에 매핑한다. Node2Vec[20], FastRP[21]와 같은 랜덤 워크 기반 방법은 이웃 구조를 활용한다. 이러한 임베딩은 유사도 기반 검색을 가능하게 하며, 질문과 그래프 요소를 동일한 잠재 공간에 매핑해 관련 서브그래프를 빠르게 찾아낸다. EmbedKGQA[22], GraftNet[23] 등은 질문 임베딩과 엔터티·관계 임베딩을 정렬해 KGQA에 적용한다. 이처럼 밀집 임베딩은 검색 신호와 효율적인 다중 홉 추론을 동시에 제공한다.
1.4 근거 기반 추론
근거 기반 추론은 모델 출력이 검증 가능한 증거에 의해 뒷받침되도록 하는 목표를 가진다. KG 기반 추론에서는 각 추론 단계가 그래프의 **엣지(삼중항)**와 일치하도록 맞추어, 중간 단계의 투명한 검증과 외부 검증을 가능하게 한다. 이는 생물 의학 연구의 인과 사슬 검증, 사이버 보안 정책 준수 확인, 금융 감사 추적 등 고위험 분야에서 특히 중요하다. 따라서 최근 연구는 심볼릭 추론, 그래프 임베딩, LLM 계획을 결합해 근거가 명확하고 비용 효율적인 파이프라인을 구축하는 데 초점을 맞추고 있다. 본 연구는 이러한 흐름을 이어, 검증 가능성을 유지하면서 LLM‑기반 추론의 계산 비용을 감소시키는 효율적인 그래프 탐색 메커니즘을 탐구한다.
2. 실험 설정
2.1 데이터셋: MetaQA
본 연구는 MetaQA 벤치마크[24]를 사용한다. 이 데이터셋은 영화 도메인 KG를 기반으로 하며, 43,234개의 엔터티, 134,741개의 삼중항, 9개의 관계 유형을 포함한다. 질문은 1‑hop, 2‑hop, 3‑hop으로 구분되어 각각 단일, 이중, 삼중 단계 추론을 요구한다. 전체 407,513개의 자연어 질문이 제공되며, 표 I에 제시된 대로 학습/검증/테스트 분할이 있다. 엔터티 연결은 정확한 문자열 매칭을 통해 수행한다.
2.2 모델 구성
다음 세 가지 언어 모델을 실험에 활용한다.
| 모델 | 설명 | 특징 |
|---|---|---|
| GPT‑5‑mini (gpt‑5‑mini‑2025‑08‑07) | 최신 상용 LLM, 뛰어난 추론 능력, 구조화된 출력 정확도 거의 100% | API 기반, 높은 비용 |
| Qwen3‑30B (qwen3‑30b‑a3b‑instruct‑2507‑bf16) | MoE 기반 자체 호스팅 모델, 30B 파라미터, bf16 양자화 | 비용 제로, 경쟁력 있는 추론 |
| Qwen3‑4B (qwen3‑4b‑instruct‑2507) | 소형 밀집 모델, 빠른 추론, 메모리 요구 낮음 | 관계 계획 정확도 다소 낮음 |
모든 실험은 NVIDIA A40 (48 GB VRAM) 환경에서 진행했으며, vLLM 프레임워크[26]를 통해 효율적인 병렬 서빙과 메모리 최적화를 수행했다. 모델 호스팅은 단일 A40 GPU에서 이루어졌고, 추가 GPU는 파인튜닝 및 병렬 평가에 사용하였다.
3. 방법론
3.1 Zero‑Shot LLM 베이스라인
Zero‑Shot 베이스라인은 LLM 내부에 내재된 사실·관계 지식의 양을 측정한다. 모델에 자연어 질문을 입력하고, 최대 50개의 후보 답을 JSON 형식으로 반환하도록 지시한다. GPT‑5‑mini는 구조를 잘 따르지만, Qwen 시리즈는 종종 형식이 깨지는 경우가 있다. 이를 해결하기 위해 두 단계 파이프라인을 적용한다: 1) 자유형 답변 생성, 2) JSON 스키마 변환. 이 방법으로 파싱 오류를 30‑40%에서 5% 이하로 감소시켜 자동 평가가 가능하도록 했다. 결과는 비근거 LLM 추론의 한계를 보여준다; 그래프에 존재하지 않는 답변을 자주 반환한다.
3.2 LLM‑플래닝 기반 관계 시퀀스
두 번째 변형은 LLM을 관계 플래너로 활용한다. 모델은 최종 답변 대신 관계 시퀀스(예: [acted_in, directed_by])를 구조화된 형태로 출력한다. 예시 질문 “What genres are films written by the writer of [Inception]?”에 대해 LLM은 다음과 같은 계획을 제시한다.
{
"plan": [
{"relation": "writer_of"},
{"relation": "written_by"},
{"relation": "has_genre"}
]
}이 계획은 BFS 엔진에 전달되어, 시작 엔터티(예: “Inception”)에서 제시된 관계만 따라가며 그래프를 탐색한다. 이렇게 하면 (i) 근거 보장 – 모
이 글은 AI가 자동 번역 및 요약한 내용입니다.