뉴스에서 사실적 호소를 탐지하는 새로운 과제

뉴스에서 사실적 호소를 탐지하는 새로운 과제
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

FactAppeal 논문은 뉴스 문장에서 사실적 주장과 그 주장을 뒷받침하는 외부 출처(전문가, 증인, 공식 자료 등)를 동시에 식별하는 ‘Epistemic Appeal Identification’ 과제를 제시한다. 3,226문장에 대한 세밀한 스팬 레벨 주석을 제공하고, 출처 유형·인용 방식·명시 여부 등 10여 가지 세부 속성을 포함한다. 다양한 대형 언어 모델을 실험한 결과, Gemma 2 9B 기반 모델이 매크로 F1 0.73을 기록하며 현재 최고 성능을 보였다.

상세 분석

이 논문은 기존의 사실성 검증 연구가 주장 자체의 진위 여부에만 초점을 맞춘 반면, 주장에 대한 ‘인식적 근거’를 동시에 파악하려는 새로운 과제를 정의한다는 점에서 학술적 의의가 크다. 주석 스킴은 ‘Fact Without Appeal’와 ‘Fact With Appeal’라는 두 개의 기본 태그를 중심으로, 출처(Source)와 그 속성(Source Attribute), 인용 형태(Direct Quote·Indirect Quote), 수신자(Recipient), 호소 시점·장소(Appeal Time·Location) 등을 세밀하게 라벨링한다. 특히 출처 유형을 ‘Active Participant’, ‘Witness’, ‘Official’, ‘Expert’, ‘Direct Evidence’, ‘Expert Document’, ‘News Report’ 등으로 구분하고, 내부·외부, 인간·비인간이라는 두 축으로 구조화한 점이 독창적이다.

주석 품질을 검증하기 위해 두 명의 주석자가 동일 문장을 라벨링한 후 단어 수준의 IoU와 Cohen’s κ를 계산했으며, 전반적인 IoU 0.74·κ 0.82는 높은 일관성을 보여준다. 다만 일부 희귀 태그(예: Appeal Time, Appeal Location)의 경우 표본이 적어 신뢰도가 낮을 수 있다.

모델링 측면에서는 2 B~9 B 파라미터 규모의 인코더(예: RoBERTa, DeBERTa)와 디코더(예: LLaMA, Gemma) 모델을 비교했으며, 특히 Gemma 2 9B가 가장 높은 매크로 F1 0.73을 달성했다. 이는 스팬 레벨 다중 라벨링과 복합적인 속성 예측을 동시에 수행하는 데 대형 언어 모델이 충분히 활용될 수 있음을 시사한다. 그러나 전체 성능이 아직 1.0에 미치지 못하므로, 출처 식별 정확도 향상, 문맥적 추론 강화, 멀티태스크 학습 등 추가 연구가 필요하다.

이 연구는 사실 검증 파이프라인에 ‘인식적 근거’ 레이어를 추가함으로써, 주장 자체뿐 아니라 그 근거의 신뢰성까지 평가할 수 있는 기반을 제공한다. 언론학, 인지과학, 법학 등 다양한 분야에서 뉴스 보도의 설득 메커니즘을 정량화하고, 허위 정보 확산 방지에 실질적인 도구로 활용될 가능성이 크다.


댓글 및 학술 토론

Loading comments...

의견 남기기