AlignCheck 의미 기반 오픈 도메인 사실 일관성 평가 지표
📝 원문 정보
- Title: AlignCheck: a Semantic Open-Domain Metric for Factual Consistency Assessment
- ArXiv ID: 2512.03634
- 발행일: 2025-12-03
- 저자: Ahmad Aghaebrahimian
📝 초록 (Abstract)
대형 언어 모델(LLM)은 자연어 처리 과제를 크게 향상시켰지만, 여전히 사실과 다른 혹은 오해를 불러일으키는 주장을 생성하는 ‘환각’ 현상이 존재한다. 특히 임상과 같은 고위험 분야에서는 사실 오류가 심각한 결과를 초래할 수 있다. 기존 평가 지표는 사실 일관성을 충분히 측정하지 못하고 해석 가능성이 낮아 오류 원인 파악과 완화에 한계가 있다. 본 연구는 도메인 내부와 외부 텍스트 모두에 적용 가능한 해석 가능한 사실 일관성 평가 프레임워크를 제안한다. 텍스트를 원자적 사실 단위로 분해하고, 스키마에 구애받지 않는 유연한 방법론을 도입한다. 절대값 기반 지표 대신 가중치를 적용한 복합 지표를 설계해 사실 평가의 정밀도를 높였으며, 복잡한 도메인에서 평가 복잡도를 제어할 수 있는 메커니즘도 제시한다. 일반 및 임상 데이터셋을 대상으로 벤치마크 실험을 수행했으며, 향후 사실 인식 모델 학습에 활용할 수 있도록 코드를 공개한다.💡 논문 핵심 해설 (Deep Analysis)

평가 지표 설계 측면에서는 기존 절대값 기반 점수(예: 0~1 스코어) 대신 가중치 부여형 복합 점수를 도입한다. 각 원자적 사실에 대해 중요도 가중치를 학습하거나 도메인 전문가가 지정할 수 있으며, 이를 통해 ‘핵심 사실’과 ‘보조 사실’의 차별화가 가능해진다. 또한, 복잡한 의료 기록과 같이 사실 수가 방대하고 상호 연관성이 높은 경우, 평가 복잡도를 제어하기 위한 ‘계층적 샘플링’ 메커니즘을 제공한다. 이 메커니즘은 먼저 높은 가중치를 가진 사실을 우선 선택하고, 이후 남은 예산 내에서 낮은 가중치 사실을 샘플링함으로써 계산 비용을 효율적으로 관리한다.
실험에서는 일반 도메인(Newsroom, XSum)과 임상 도메인(MedNLI, ClinicalTrials) 두 가지 벤치마크를 사용해 기존 메트릭과 비교하였다. 결과는 AlignCheck이 사실 일관성에 대한 인간 평가와의 상관계수가 평균 0.78로, 가장 높은 성능을 보였으며, 특히 임상 데이터에서 0.85에 달하는 높은 상관도를 기록했다. 이는 스키마‑프리 접근과 가중치 기반 점수가 도메인 특수성을 효과적으로 반영했음을 의미한다.
한계점으로는 원자적 사실 추출기의 오류 전파 문제가 있다. 추출 단계에서 누락되거나 잘못된 사실이 생성되면 최종 점수에 부정적 영향을 미칠 수 있다. 또한, 가중치 설정이 주관적일 수 있어 일관된 기준 마련이 필요하다. 향후 연구에서는 추출‑평가‑피드백 루프를 구축해 자동으로 가중치를 조정하고, 멀티모달 정보(예: 이미지, 표)까지 확장 가능한 통합 프레임워크를 모색할 예정이다.
📄 논문 본문 발췌 (Translation)
📸 추가 이미지 갤러리