의회 발언의 사실성 주석 체계와 자동 예측 모델
초록
본 논문은 히브리어 의회 기록 5천 문장을 대상으로 복합적인 사실성 주석 스키마를 설계·적용하고, 인간 주석자의 일관성을 평가한 뒤, 체크‑워디니스(검증 필요성) 레이블을 예측하기 위한 여러 자동 모델을 실험한다. 특히, 파인‑튜닝된 히브리어 대형 언어 모델이 오프‑더‑쉘 GPT보다 현저히 높은 정확도를 보이며, 전체 코퍼스에 자동 주석을 확장하는 데 활용된다.
상세 분석
이 연구는 사실성(factuality)을 “사실·가능·상상”이라는 세 축으로 구분하고, 이를 언어학적·외부적 단서와 결합한 다층 주석 스키마를 제안한다. 스키마는 크게 6개의 레이어로 구성된다. 첫 번째 레이어는 체크‑워디니스 점수와 청구 유형(claim type), 그리고 사실성 프로파일(모달리티·극성의 쌍)이다. 여기서 체크‑워디니스는 ‘검증 가치 있음’, ‘검증 가치 없음’, ‘사실적 명제 아님’으로 구분되며, 기존 ClaimBuster와 Gencheva의 이진 점수를 포괄한다. 두 번째 레이어는 사건 선택 술어(event‑selecting predicates, ESP)를 식별해 SIP(소스 도입 술어)와 NSIP(비소스 술어)로 구분하고, 필요 시 소스 정보를 연결한다. 세 번째 레이어는 행위자(agency)를 상세히 기록한다. 행위자의 존재 여부, 위치(주어·목적어·내재 주어 등), 애니메이션(인간·동물·무생물), 형태(단수·복수)와 같은 형태학적 특성을 명시함으로써, 행위자 결여가 사실성 판단에 미치는 영향을 정량화한다. 네 번째 레이어는 화자의 입장(stance)을 ‘효과적’·‘인식적’으로 구분하고, 자신감 수준(high, mid, low, irrelevant), 극성(positive, negative, underspecified) 및 근거(reference)를 함께 표기한다. 다섯 번째 레이어는 완화어(hedge)를 리스트업해 화자의 확신 정도를 보조한다. 마지막 레이어는 수량 표현(quantities)을 다루며, 구체적 수치와 수량사(quantifier), 그 유형(universal, existential 등)을 기록한다.
주석 단위는 문장이지만, 하나의 문장에 다수의 청구가 존재할 경우 청구별로 레이어를 반복 적용한다는 점이 특징이다. 히브리어는 복합 형태소와 불완전한 철자 체계가 존재하므로, 기존 영어 중심의 주석 도구를 그대로 적용하기 어렵다. 저자들은 이를 극복하기 위해 형태소 분석기와 명명 엔티티 인식기를 사전 처리 파이프라인에 통합하고, 주석 가이드라인을 히브리어 특수성에 맞게 세분화하였다.
주석 품질을 평가한 결과, 전반적인 인터‑앵커 어그리먼트(Kappa)는 0.71 수준으로, 다층 구조임에도 불구하고 인간 주석자 간 일관성이 높았다. 특히 체크‑워디니스와 청구 유형은 0.78, 0.74의 높은 합의를 보였으며, ESP와 행위자 레이어는 상대적으로 낮은 0.62, 0.65를 기록했다. 이는 사건 선택 술어와 행위자 식별이 언어적 모호성에 크게 좌우됨을 시사한다.
자동 예측 실험에서는 먼저 기존 SOTA GPT‑3.5/4 모델을 zero‑shot 및 few‑shot 설정으로 적용했지만, 체크‑워디니스 이진 분류에서 F1 점수가 0.58에 머물렀다. 이후 히브리어 전용 LLM인 ‘AlephBERT‑Large’를 4,987개의 주석 데이터로 파인‑튜닝한 결과, F1 점수가 0.81로 크게 향상되었다. 모델은 특히 ‘not a factual proposition’(질문·명령 등)과 ‘worth checking’ 사이를 구분하는 데 강점을 보였으며, 오류 분석에서는 복합 부정구문과 간접 인용문에서 오분류가 집중되는 경향을 발견했다. 최종적으로 파인‑튜닝된 모델을 전체 Knesset 코퍼스(수십만 문장)에 적용해 체크‑워디니스 레이블을 자동으로 부착하고, 이를 공개 데이터셋으로 배포하였다.
이 논문의 주요 기여는 (1) 다언어 적용 가능성을 염두에 둔 포괄적 사실성 주석 스키마 설계, (2) 히브리어 의회 발언에 대한 대규모 인간 주석 구축 및 IAA 보고, (3) 현존 LLM의 한계를 진단하고, 도메인‑특화 파인‑튜닝이 사실성 판단에 미치는 효과를 실증한 점이다. 한계로는 체크‑워디니스 외 다른 레이어(예: ESP, agency)의 자동 예측이 미비하고, 주석 비용이 높은 점, 그리고 히브리어 외 언어에 대한 실제 적용 사례가 부족한 점을 들 수 있다. 향후 연구에서는 전체 레이어를 통합한 멀티‑태스크 학습, 크로스‑링구얼 전이 학습, 그리고 실제 팩트‑체킹 파이프라인과의 연계를 통해 실용성을 높일 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기