TDGNet: 확산 언어 모델의 환각 탐지를 위한 시간 동적 그래프 네트워크

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

TDGNet은 확산 기반 대형 언어 모델(D‑LLM)의 텍스트 생성 과정에서 발생하는 환각을, 단계별 어텐션 그래프를 시간에 따라 동적으로 추적·통합함으로써 탐지한다. 토큰별 메모리를 유지하며 메시지 패싱과 시간 어텐션을 결합해 전체 디노이징 궤적을 한 번에 평가하고, 기존 출력·잠재 기반 탐지기 대비 AUROC에서 일관된 향상을 달성한다.

상세 분석

본 논문은 확산 언어 모델(D‑LLM)이 기존의 자동 회귀(AR) 모델과 달리 전체 시퀀스를 동시에 디노이징하는 특성 때문에, 환각 현상이 단일 출력 단계가 아니라 여러 디노이징 단계에 걸쳐 동적으로 나타난다는 점을 강조한다. 이러한 “시간적 진동”은 초기 단계에서 사실이 점차 흐려지거나, 중간 단계에서 자체 교정(self‑correction)되는 등 복합적인 패턴을 보이며, 단순히 최종 출력이나 로그 확률만을 이용한 기존 탐지 기법으로는 포착하기 어렵다.

TDGNet은 이 문제를 해결하기 위해 두 가지 핵심 설계를 도입한다. 첫째, 각 디노이징 스텝 t에서 모델의 어텐션 행렬을 기반으로 토큰 간의 유향 그래프 G(t)를 구성한다. 여기서 노드는 고정된 토큰 위치이며, 엣지는 어텐션 점수가 사전 정의된 임계값 τ를 초과하는 경우에만 남겨 sparsify한다. 이렇게 함으로써 잡음 연결을 억제하고 의미론적 클러스터 형성을 강조한다. 둘째, 그래프 시퀀스 {G(0)…G(T)}에 대해 메시지 패싱 신경망(MPNN)으로 각 스텝의 로컬 구조를 요약하고, 토큰별 지속 메모리 s_i(t) 를 RNN‑형식(예: GRU)으로 업데이트한다. 이후 시간 어텐션 메커니즘을 적용해 전체 궤적에서 가장 신뢰할 만한 증거를 가중 평균함으로써 최종 환각 확률을 출력한다.

기술적 세부사항을 살펴보면, 메시지 함수 ψ는 토큰 특징 h_i(t), 이웃 h_j(t) 및 엣지 특징 e_{ji}(t)를 입력받아 MLP로 변환하고, 평균 풀링을 통해 \bar{m}_i(t) 를 얻는다. 메모리 업데이트는 s_i(t) = GRU(s_i(t‑1), \bar{m}_i(t)) 형태이며, 시간 어텐션은 스칼라 가중치 α_t = softmax(w·t + b) 로 정의해 각 스텝의 중요도를 학습한다. 최종 예측은 sigmoid(∑_t α_t·MLP(s_i(t))) 로 구현되어 토큰 수준뿐 아니라 시퀀스 전체 수준의 환각 여부를 동시에 추정한다.

실험에서는 LLaDA‑8B와 Dream‑7B 두 모델에 대해 다중 선택형, 개방형, 컨텍스트 기반 QA 벤치마크를 사용했으며, AUROC 기준으로 기존 출력 기반(semantic entropy, lexical similarity 등), 잠재 기반(EigenScore) 및 정적 그래프(Temporal Subgraph Voting, CCS) 방법을 모두 앞섰다. 특히 TDGNet은 “Self‑Correction”, “Correctness Decay”, “Semantic Drift”, “Persistent Error” 네 가지 디노이징 동역학을 시각화해, 환각이 언제, 어떻게 발생하는지를 정량적으로 설명한다. Ablation study에서는 (1) 그래프 sparsification 없이 완전 연결 그래프, (2) 시간 어텐션을 제거하고 마지막 스텝만 사용, (3) 메모리 없이 순차적 MPNN만 적용했을 때 성능이 현저히 떨어짐을 보여, 구조적·시간적 두 축 모두가 필수임을 입증한다.

또한, 모델 복잡도 측면에서 TDGNet은 단일 패스 추론만을 요구하고, 그래프 sparsification과 메모리 업데이트가 전체 디노이징 단계에 걸쳐 O(N·E·T) 정도의 선형 비용을 유지한다. 실제 추론 시간은 기존 출력 기반 탐지기와 비슷하거나 약간 증가했지만, 메모리 사용량은 10~15% 정도만 추가되었다. 이는 실시간 시스템에 적용 가능함을 시사한다.

요약하면, TDGNet은 확산 기반 LLM의 고유한 시간‑공간 상호작용을 그래프 형태로 명시화하고, 동적 그래프 신경망을 통해 환각 신호를 누적·통합함으로써 기존 방법이 놓치던 미세한 사실성 변화를 포착한다. 이는 확산 언어 모델이 점차 실용화되는 현재, 사실성 검증을 위한 새로운 패러다임을 제시한다.

TDGNet: 확산 언어 모델의 환각 탐지를 위한 시간 동적 그래프 네트워크

초록

상세 분석

댓글 및 학술 토론

의견 남기기