인간과 LLM이 함께하는 지식 그래프 질의응답 아키텍처

인간과 LLM이 함께하는 지식 그래프 질의응답 아키텍처
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 언어 모델(LLM)이 사이퍼(Cypher) 쿼리를 자동 생성하고, 자연어 설명과 사용자의 피드백을 통해 반복적으로 수정하도록 설계된 인간‑인‑루프 시스템을 제안한다. 합성 영화 그래프와 실제 하이에나·MaRDI 그래프에서 90개 질문 벤치마크와 두 개의 사례 연구를 수행해 설명 정확도, 오류 탐지, 쿼리 수정 효율성을 평가하였다. 결과는 LLM‑기반 질의 생성이 정확도와 투명성을 동시에 확보할 수 있음을 보여준다.

상세 분석

이 연구는 기존 RAG(리트리벌‑증강‑생성) 방식이 텍스트 기반 검색에 의존해 다중 홉 추론을 수행하기 어렵다는 한계를 지적하고, 지식 그래프(KG)의 구조적 장점을 활용한다는 점에서 차별화된다. 핵심 설계는 네 개의 모듈—쿼리 생성기, 실행기, 설명기, 수정기—으로 구성된 파이프라인이며, 모두 동일한 LLM을 LangChain 인터페이스를 통해 호출한다. 쿼리 생성 단계에서는 스키마‑인식 프롬프트를 사용해 노드·관계 타입을 제한함으로써 구문 오류를 최소화한다. 실행기는 Neo4j 드라이버를 통해 사이퍼 쿼리를 직접 실행하고, 결과를 파이썬 구조로 반환한다. 설명기에서는 동일 LLM에 “쿼리 목적·단계·가능한 오류”를 기술하도록 프롬프트를 제공해, 사용자가 사이퍼 코드를 읽지 않아도 논리 흐름을 이해하도록 돕는다. 수정기는 사용자가 자연어로 제시한 수정 지시를 받아 기존 쿼리를 편집하도록 LLM에 요청한다; 이때 전체 재생성 대신 부분 편집을 유도해 기존 구조를 보존하고 과도한 수정(over‑correction)을 방지한다.

평가 설계는 세 가지 축을 중심으로 한다. 첫째, 합성 영화 KG에 대해 90개의 질문을 이용해 설명 정확도와 오류 탐지율을 측정했으며, GPT‑4, Claude, DeepSeek 등 여러 모델을 비교했다. 둘째, 실제 도메인인 하이에나 생태 데이터와 MaRDI 수학 데이터에 대해 각각 15~20개의 질의를 수행해 쿼리 정확도와 수정 효율성을 검증했다. 셋째, 인간‑인‑루프 인터랙션 로그를 분석해 사용자가 수정 요청을 할 때 평균 1.3회의 라운드만에 원하는 결과에 도달함을 확인했다.

실험 결과, GPT‑4 기반 파이프라인이 가장 높은 설명 일치도(≈ 92 %)와 오류 탐지율(≈ 88 %)을 보였으며, 다른 모델은 설명의 모호성이나 잘못된 관계 방향을 자주 제시했다. 실제 KG에서는 복잡한 다중 홉 쿼리(예: “특정 소프트웨어 패키지를 만든 연구자와 그들의 공동 논문”)에서 초기 생성 오류가 발생했지만, 사용자의 자연어 수정(예: “관계 방향을 반대로”)을 통해 2~3회 수정만에 정확한 결과를 얻을 수 있었다. 이는 LLM이 스키마를 충분히 인식하고, 인간 피드백을 효과적으로 반영한다는 증거이다.

또한, 시스템이 제공하는 “플라우시빌리티 체크”(쿼리 패턴의 합리성 평가)와 “오류 플래그”(존재하지 않는 라벨·관계 탐지) 기능이 사용자 신뢰도를 크게 향상시켰으며, 전통적인 텍스트‑RAG 대비 KG‑RA​G가 제공하는 투명성·정확성 차이를 실증적으로 입증했다.

한계점으로는 (1) 스키마가 매우 복잡하거나 비표준 라벨을 포함할 경우 LLM이 올바른 매핑을 놓칠 수 있다; (2) 현재는 Neo4j 기반 구현에 국한돼 있어 다른 그래프 DBMS와의 호환성이 검증되지 않았다; (3) 인간 피드백을 통한 반복 라운드가 증가하면 전체 응답 지연이 커질 수 있다. 향후 연구에서는 자동 오류 교정 모델, 멀티‑DBMS 추상화 레이어, 그리고 사용자 피드백 최소화를 위한 사전‑학습된 “쿼리 교정 프롬프트” 등을 탐색할 예정이다.


댓글 및 학술 토론

Loading comments...

의견 남기기