위키피디아 인용 범위 자동 탐지
초록
위키피디아 문단에서 각 인용이 실제로 커버하는 텍스트 조각을 서브문장 수준으로 식별하기 위해, 저자들은 선형 체인 CRF 기반의 시퀀스 분류 모델을 제안한다. 구조적 특징, 인용 본문과의 언어모델·자카드 유사도, 담화·시간적 신호 등을 활용해 텍스트 조각을 ‘covered’와 ‘not‑covered’로 라벨링한다. 509개 문단(408개 고유 문단)에서 수작업으로 만든 라벨링 데이터를 이용해 실험했으며, 기존 과학 논문 기반 베이스라인을 모두 능가하는 성능을 보였다.
상세 분석
본 논문은 위키피디아 편집 정책 중 핵심인 ‘검증 가능성(verifiability)’을 실현하기 위한 전처리 작업으로, 인용이 실제로 지원하는 텍스트 범위, 즉 citation span을 자동으로 추출하는 문제에 초점을 맞춘다. 기존 연구는 주로 과학 논문을 대상으로 문장 단위 혹은 인용 블록을 식별했으며, 명시적인 인용 표시와 저자·연도와 같은 메타정보에 크게 의존한다. 그러나 위키피디아는 인용 마커가 문장 중간이나 끝에 삽입되는 경우가 많고, 인용과 텍스트 사이에 명시적 연결어가 거의 없어 이러한 접근법을 그대로 적용하기 어렵다. 따라서 저자들은 텍스트를 ‘sub‑sentence’ 수준, 즉 구두점(, ; : ? !)을 기준으로 나눈 조각(fragment)들로 분할하고, 각 조각이 특정 인용에 포함되는지를 이진 라벨링하는 시퀀스 라벨링 문제로 재정의한다.
모델은 선형 체인 Conditional Random Field(CRF)를 사용한다. CRF는 인접 조각 간 라벨 의존성을 모델링함으로써, 인용 마커와 가까운 조각이 커버될 확률이 높고, 문맥적 일관성을 유지하도록 돕는다. 특징 설계는 네 가지 카테고리로 구분된다. 첫째, 구조적 특징은 조각이 인용 마커와 같은 문장에 속하는지, 인용 마커까지의 거리, 문단 내 문장 수 등으로, 인용이 국소적으로 집중되는 경향을 포착한다. 둘째, 인용 특징은 조각과 인용 본문 사이의 내용 유사도를 측정한다. 여기서는 이동 윈도우 언어 모델(KL divergence)과 최대 자카드 유사도를 각각 f_LM_i와 f_J_i로 정의하고, 인용 본문의 문장 수(f_c)도 추가한다. 셋째, 담화 특징은 Pitler와 Nenkoova의 명시적 담화 연결어 탐지를 차용해, 시간·조건·확장·비교 관계를 조각에 부여한다. 마지막으로 시간적 특징은 연속 조각 사이에 날짜 표현이 존재할 경우, 그 차이를 일(day) 단위로 계산해 라벨 전이 확률에 영향을 준다.
데이터는 2016년 11월 20일 스냅샷을 기반으로, 웹·뉴스 인용을 포함하는 위키피디아 엔터티를 무작위 샘플링해 509개 문단(평균 4.4개 인용)으로 구성하였다. 각 조각에 대해 ‘covered’/‘not‑covered’ 라벨을 수작업으로 부착했으며, 두 번째 annotator와의 κ=0.84라는 높은 일치도를 확보했다. 실험에서는 O’Connor(1982), Kaplan et al.(2016), Qazvinian & Radev(2010) 등 기존 과학 텍스트 기반 베이스라인을 재현했으며, 제안된 CRF 모델이 정밀도·재현율·F1 모두에서 우수한 결과를 보였다. 특히 서브문장 수준의 미세한 스팬을 정확히 포착함으로써, 기존 문장 수준 접근법이 과도하게 넓은 혹은 누락된 스팬을 생성하는 문제를 크게 완화한다.
이 연구의 주요 기여는 (1) 위키피디아 인용 스팬을 최초로 정의하고, 서브문장 단위의 정밀 라벨링 작업을 수행한 점, (2) 전역 의존성을 고려한 CRF 기반 시퀀스 라벨링 프레임워크와 풍부한 특징 집합을 설계한 점, (3) 공개 가능한 라벨링 데이터셋을 제공해 후속 연구를 촉진한 점이다. 향후 연구에서는 인용 내용의 신뢰도 평가, 인용 누락 자동 탐지, 그리고 다중 인용이 겹치는 복합 스팬 처리 등으로 확장할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기