거짓의 에너지 확산 모델로 허위 진술 탐지

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

DiffuTruth는 텍스트 확산 모델을 이용해 사실 검증을 비지도 방식으로 수행한다. 주장에 노이즈를 주입하고 복원 과정을 거친 뒤, 원문과 복원문 사이의 모순 확률을 NLI 모델로 측정해 ‘Semantic Energy’를 산출한다. 낮은 에너지는 진실, 높은 에너지는 허위로 해석한다. 이 신호를 기존 판별기 신뢰도와 결합한 Hybrid Calibration을 통해 FEVER에서 AUROC 0.725, HO VER에서 0.566을 기록하며, 기존 방법보다 안정적인 OOD 일반화를 보인다.

상세 분석

DiffuTruth는 “진실은 저에너지 안정점, 허위는 고에너지 불안정점”이라는 비평형 열역학 가설을 텍스트 확산 모델에 적용한다. 구체적으로, 사전 학습된 이산 확산 모델(DiffuSeq)을 사용해 입력 주장 x를 중간 타임스텝 t* (≈50 % 노이즈)까지 전방 확산시킨 뒤, 역확산 과정을 통해 재구성된 주장 \hat{x}{rec}을 얻는다. 이때 진실한 주장은 데이터 분포 M에 가까워 역확산 시 원래 의미를 유지하므로 \hat{x}{rec}≈x가 된다. 반면 허위 주장은 M 밖에 위치해 역확산 시 모델이 가장 가까운 사실적 이웃으로 “수정”하려는 힘을 발휘한다(예: 2020 → 476). 기존의 L2‑거리 기반 재구성 오류는 구문적 차이에 민감해 허위와 진실을 구분하기 어렵다. 따라서 DiffuTruth는 NLI 크리틱을 활용해 원문을 전제로, 재구성문을 가설로 두고 모순 확률 P(Contradiction|premise, hypothesis)을 Semantic Energy E_sem으로 정의한다. 높은 E_sem은 모델이 입력을 “거부”했음을 의미한다.

핵심 기술적 기여는 세 가지이다. 첫째, ‘Generative Stress Test’라는 절차를 통해 텍스트의 의미적 안정성을 직접 측정한다. 둘째, NLI 기반 모순 확률을 에너지 스칼라로 전환함으로써 의미적 드리프트를 정량화한다. 셋째, 기존 판별기(DeBERTa‑v3 기반 NLI)의 신뢰도 S_disc와 (1 − E_sem)을 가중 평균한 Hybrid Calibration S_hybrid = λ S_disc + (1 − λ)(1 − E_sem)으로 결합한다. 실험에서는 λ = 0.5가 검증 성능을 최적화한다는 결과가 보고된다.

실험 설정은 두 데이터셋을 사용한다. FEVER는 사실 검증의 대표적 인‑도메인 벤치마크이며, DiffuTruth는 FEVER의 ‘SUPPORTED’ 라벨만을 사용해 확산 모델을 미세조정한다(양성 전용 학습). HO VER는 다중 홉 추론을 요구하는 OOD 테스트셋으로, 사전 학습 없이 제로샷으로 평가한다. 평가 지표는 AUROC와 정확도이며, 무작위(0.5), 원시 MSE 기반 에너지, 직접 NLI(DeBERTa‑v3)와 비교한다.

결과는 다음과 같다. FEVER에서 Raw MSE는 AUROC 0.541에 그쳤지만, Semantic Energy만 사용했을 때 AUROC 0.640을 달성한다. Hybrid Calibration은 AUROC 0.725, 정확도 66.1 %로 가장 높은 성능을 기록한다. HO VER에서는 직접 NLI가 AUROC 0.525에 머무는 반면, DiffuTruth는 AUROC 0.566을 유지해 OOD 상황에서도 안정적인 일반화를 보인다. 이는 진실의 저에너지 안정점이 데이터 분포를 초월한 의미적 구조를 반영한다는 가설을 실증한다.

한계점으로는 확산 샘플링 비용이 높아 실시간 서비스에 제약이 있으며, 양성 전용 학습이 필요해 부정적 예시가 부족한 도메인에서는 적용이 어려울 수 있다. 향후 연구는 효율적인 샘플링 전략, 멀티모달 확산 모델, 그리고 사실성 라벨이 없는 대규모 코퍼스에 대한 자기지도 학습을 탐색한다.

거짓의 에너지 확산 모델로 허위 진술 탐지

초록

상세 분석

댓글 및 학술 토론

의견 남기기