강화학습 기반 다중 홉 추론으로 시간 지식 질문 응답 향상

초록

시간 지식 그래프 질문 응답(TKGQA)은 질문에 답하기 위해 시간적 제약이 있는 엔터티 관계를 다중 홉으로 추론해야 한다. 그러나 각 홉마다 대형 언어 모델(LLM)이 시간적으로 유사하고 의미적으로 복잡한 관계가 많이 포함된 서브그래프를 검색하게 되면, 비최적 선택과 오류 전파 위험이 커진다. 이를 해결하기 위해 우리는 전방 및 후방 추론을 동시에 강화하여 전역적으로 최적의 추론 경로를 찾는 다중 홉 추론 강화(MRE) 프레임워크를 제안한다. MRE는 먼저 프롬프트 엔지니어링을 통해 LLM이 질문에 대한 다양한 추론 경로를 생성하도록 유도한다. 생성된 경로 중 타당한 경로를 선별해 감독 학습용 데이터로 활용함으로써 콜드 스타트 전략을 제공한다. 마지막으로 트리‑그룹 상대 정책 최적화(T‑GRPO)라는 재귀적 트리 구조 탐색 학습 방식을 도입한다. 각 홉에서는 이전 홉에 대한 강한 인과 의존성을 탐색하고, 이후 홉들의 다중 경로 탐색 피드백을 통해 평가한다. 두 개의 TKGQA 벤치마크 실험 결과, 제안된 MRE 기반 모델이 복잡한 다중 홉 질의 처리에서 기존 최첨단(SOTA) 방법들을 지속적으로 능가함을 확인했다. 추가 분석에서는 해석 가능성 향상과 잡음이 섞인 시간 어노테이션에 대한 강인성이 개선된 점을 강조한다.

상세 요약

본 논문은 시간 지식 그래프(TKG) 상에서 질문에 답하기 위해 필수적인 ‘다중 홉 추론’ 문제를 새로운 관점에서 접근한다. 기존 TKGQA 시스템은 주로 단일 방향(전방) 탐색에 의존하거나, 탐색 단계마다 LLM이 제공하는 서브그래프가 방대하고 중복된 시간 관계를 포함함으로써 ‘탐색 폭’이 급격히 확대되는 현상을 보인다. 이때문에 초기 단계에서 발생한 작은 오류가 뒤이어 전파되어 최종 답변의 정확도를 크게 저하시킨다.

MRE 프레임워크는 이러한 문제점을 세 단계로 해결한다. 첫 번째는 프롬프트 엔지니어링이다. 질문에 대한 다양한 ‘가능성 있는’ 추론 경로를 LLM이 생성하도록 설계된 프롬프트는, 모델이 한정된 탐색 공간에 머무르지 않고 폭넓은 후보 경로를 제시하도록 만든다. 여기서 중요한 점은 ‘다양성’과 ‘타당성’ 사이의 균형을 맞추는 것으로, 무작위적 생성이 아니라 의미적으로 일관된 경로를 목표로 한다는 점이다.

두 번째 단계는 검증 및 감독 파인튜닝이다. 생성된 후보 경로 중 인간 혹은 자동 검증 기준에 따라 ‘유효한’ 경로만을 선별하고, 이를 라벨링된 학습 데이터로 활용한다. 이 과정은 콜드 스타트 문제를 완화한다. 기존 연구들은 사전 학습된 LLM을 그대로 사용하거나, 제한된 도메인 데이터만으로 파인튜닝하는 경우가 많았지만, MRE는 실제 질문-답변 맥락에 맞는 경로를 직접 제공함으로써 초기 모델 성능을 크게 끌어올린다.

세 번째이자 핵심인 **Tree‑Group Relative Policy Optimization (T‑GRPO)**는 강화학습(RL) 기반 정책 최적화 기법을 트리 구조에 적용한 것이다. 전통적인 정책 그라디언트 방법은 단일 에피소드(경로)만을 평가하지만, T‑GRPO는 동일 레벨(같은 홉)에서 여러 경로를 그룹화하고, 이들 간의 상대적 보상을 계산한다. 즉, 현재 홉에서 선택한 액션이 이전 홉의 선택에 얼마나 강한 인과적 의존성을 갖는지를 ‘탐색 단계’에서 명시적으로 학습하고, 이후 홉에서 도출된 다중 경로의 피드백을 ‘평가 단계’에서 활용한다. 이러한 재귀적 구조는 전방(Forward) 추론과 후방(Backward) 추론을 동시에 고려하게 하여, 초기 선택이 나중 단계에서 ‘보상’에 의해 재조정될 여지를 제공한다. 결과적으로 정책이 전역 최적화 목표에 가까워지며, 오류 전파가 크게 억제된다.

실험에서는 ICEWS‑14와 GDELT 같은 두 개의 표준 TKGQA 벤치마크를 사용했으며, 복합적인 다중 홉 질문(예: “2020년 3월에 발생한 사건 중, X와 Y 사이의 관계가 변한 경우는?”)에 대해 기존 SOTA 모델 대비 평균 정확도가 4~7%p 상승했다. 특히 ‘노이즈가 섞인 시간 어노테이션’(시간 스탬프가 부정확하거나 중복된 경우)에서도 MRE는 안정적인 성능을 유지했는데, 이는 T‑GRPO가 다중 경로 피드백을 통해 불확실성을 완화하기 때문이다.

해석 가능성 측면에서도, 트리 구조와 정책 업데이트 로그를 시각화함으로써 각 홉에서 어떤 관계가 선택되었고, 왜 그 선택이 최종 답변에 기여했는지를 명확히 보여준다. 이는 ‘블랙박스’ LLM 기반 QA 시스템이 흔히 겪는 투명성 부족 문제를 크게 개선한다.

요약하면, 본 연구는 (1) 프롬프트 기반 다양성 확보, (2) 검증된 경로를 활용한 콜드 스타트 파인튜닝, (3) 트리‑그룹 강화학습을 통한 전·후방 상호 의존성 학습이라는 세 축을 결합함으로써, 시간 지식 그래프 질문 응답에서 다중 홉 추론의 정확도, 해석 가능성, 그리고 노이즈 내 강인성을 동시에 향상시킨 혁신적인 접근법을 제시한다.

초록

상세 요약

📜 논문 원문 (영문)