의존구조 기반 문장 단순화와 두 단계 정제로 환각 방지 관계 추출
초록
DEPTH는 의존구조를 이용해 후보 엔티티 쌍마다 최단 의존 경로(SDP)를 추출하고, 이를 중심으로 문장을 간소화해 LLM이 핵심 의미만 파악하도록 만든다. 이후 전역적인 문맥을 고려해 로컬 예측을 재정제하고, 인과관계 기반 보상 모델을 활용한 RLHF로 환각을 억제한다. 실험 결과, 8개 벤치마크에서 평균 환각률을 96.9%에서 7.9%로 낮추고 F1 점수를 9.3% 향상시켰다.
상세 분석
본 논문은 대형 언어 모델(LLM)을 활용한 관계 추출(Relation Extraction, RE)에서 발생하는 ‘환각(hallucination)’ 문제, 즉 실제 관계가 없는데도 관계를 생성하는 오류를 근본적으로 해결하고자 한다. 이를 위해 제안된 DEPTH 프레임워크는 두 단계로 구성된다. 첫 번째 단계인 Grounding 모듈은 후보 엔티티 쌍마다 의존 구문 분석을 수행해 최단 의존 경로(SDP)를 추출한다. SDP는 두 엔티티 사이의 핵심 의미 연결 고리를 제공하므로, 이 경로와 그 주변 토큰만을 남겨 문장을 최소화한다. 이렇게 단순화된 문장은 LLM에 자연어 형태의 구조 설명과 함께 프롬프트로 제공돼, 불필요한 구문적 잡음이 제거된 상태에서 관계 판단을 수행한다. 두 번째 단계인 Refinement 모듈은 모든 엔티티 쌍에 대해 얻어진 로컬 예측을 집계하고, 문장 전체의 의미 일관성(예: 전이성, 상호 배타성)을 검증한다. 여기서 LLM은 전역적인 컨텍스트를 재활용해 누락된 관계를 보완하거나, 잘못된 관계를 삭제·수정한다.
환각 억제를 위한 핵심 기법으로는 인과관계 기반 보상 모델이 도입된다. 기존 RLHF에서 보상 모델은 종종 표면적 패턴(문장 길이, 스타일)과 같은 스푸리어스 신호에 과도하게 의존해 ‘보상 해킹’ 현상이 발생한다. 저자들은 프롬프트와 응답을 ‘보상 관련 요소(s)’와 ‘보상 무관 요소(s̅)’로 명시적으로 분리하고, 보상 관련 부분만을 사용해 보상 모델을 학습한다. 이렇게 하면 보상 모델이 실제 관계 존재 여부와 인과적으로 연결된 특징에만 집중하게 되며, 스푸리어스 상관관계는 차단된다. 이후 PPO(Proximal Policy Optimization)를 이용해 LLM을 미세조정함으로써, 모델이 전역적인 문맥과 보상 모델의 신뢰성을 동시에 활용해 보다 정확한 관계 판단을 하게 된다.
실험에서는 과학 논문 데이터셋인 SciERC를 포함한 8개의 공개 RE 벤치마크를 사용했다. 특히 NO‑RELATION(관계 없음) 사례에서 기존 LLM(Qwen2.5‑14B‑Instruct)은 96.9%의 환각률을 보였으나, DEPTH 적용 후 7.9%로 크게 감소했다. 또한 전체 마이크로 F1 점수는 평균 9.3%p 상승했으며, 이는 로컬‑글로벌 정제와 인과 기반 보상 모델이 상호 보완적으로 작용했음을 의미한다. 결과적으로 DEPTH는 관계 존재 여부를 정확히 판단할 수 있는 실용적인 RE 시스템으로, 기업 수준의 대규모 문서 처리에서도 허위 지식 전파를 최소화할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기