다국어 사실 근거를 위한 10억 규모 지식 그래프 FactNet
초록
FactNet은 위키데이터와 316개 위키피디아 언어판을 이용해 1.7 B개의 원자적 주장과 3.01 B개의 텍스트 근거를 정확히 연결한 다국어 지식 그래프이다. 전 과정이 결정론적 파이프라인으로 구현돼 바이트 수준의 증거 위치를 재현 가능하게 하며, 92.1 %의 근거 정확도를 달성한다. 또한 KG 완성, 다국어 QA, 사실 검증을 위한 FactNet‑Bench 평가 스위트를 제공한다.
상세 분석
FactNet은 현재 LLM이 직면한 “사실 환각” 문제를 근본적으로 해결하고자, 구조화된 지식과 인간이 직접 작성한 텍스트 근거를 동시에 제공한다는 점에서 기존 자원과 차별화된다. 핵심 설계는 세 가지 레이어(FactStatement, FactSense, FactSynset)와 관계엣지(RelationEdge)로 구성된다. FactStatement는 위키데이터의 (주어, 속성, 값) 삼중항과 qualifier, rank, reference를 포함하는 언어 중립적 원자적 단위이며, 고유한 statement‑id로 식별된다. FactSense는 해당 삼중항이 실제 위키피디아 페이지의 어느 문장·인포박스·테이블 셀에 등장하는지를 바이트 오프셋 형태로 기록한다. 이때 오프셋은 원시 XML 덤프와 동일한 문자 인덱스를 사용해 재현 가능하도록 설계돼, 증거의 “바이트‑레벨 가시성”을 보장한다. FactSynset은 정규화 정책 π에 따라 동등한 FactStatement들을 하나의 동의어 집합으로 합치며, 정책은 값 정규화(날짜 정밀도 축소, 단위 변환, 좌표 반올림 등)와 qualifier 정렬을 명시적으로 정의한다. 합병 이유는 기계가 읽을 수 있는 메타데이터로 남겨, 사용자가 언제든지 합병 기준을 검증·조정할 수 있다.
데이터 구축 파이프라인은 완전 결정론적이다. 1) 파싱 단계에서는 위키데이터 JSON과 위키피디아 XML을 고정 규칙 기반 파서로 처리해 Sentence, Template, Table 뷰를 만든다. 2) 정규화 단계에서는 π 정책에 따라 값과 qualifier를 정규화하고, deterministic hashing을 통해 고유 ID를 생성한다. 3) 매칭 단계에서는 구조 기반(인포박스·테이블 매핑), 링크 기반(위키링크·앵커), 어휘 기반(문장 내 문자열 매칭) 세 가지 매처를 순차 적용해 FactStatement와 FactSense를 연결한다. 매칭은 “가장 높은 신뢰도” 매처를 우선시하되, 모든 후보 매칭을 메타데이터로 보존한다. 이 과정에서 어떠한 머신러닝 모델도 사용되지 않으며, 전 과정이 스냅샷‑기반이므로 동일한 입력 덤프와 설정만 있으면 언제든 재현 가능하다.
다국어 커버리지는 위키데이터의 sitelink 정보를 활용해, 주어 엔터티가 해당 언어 위키에 존재할 경우에만 근거를 추출한다. 타이틀 매칭을 통한 fallback은 정확도 손실을 방지하기 위해 “정규화된 타이틀이 정확히 하나의 비소멸 페이지와 매치될 때만” 허용한다. 이로써 장기 언어(예: 조선어, 마라티어 등)에서도 92.1 %의 근거 정확도를 유지한다는 실험 결과가 제시된다.
FactNet‑Bench은 세 가지 하위 평가 세트를 제공한다. FactNet‑KGC는 전통적인 지식 그래프 완성(링크 예측, 엔터티 예측) 태스크에 사용되며, 기존 KG(OGB‑WikiKG2, T‑REx 등) 대비 10배 이상의 트리플 수와 300배 이상의 언어를 지원한다. FactNet‑MKQA는 다국어 질문‑응답에 초점을 맞추어, FactSense의 텍스트 스팬을 직접 검색·추출하도록 설계된 베이스라인 모델을 제공한다. FactNet‑MFC는 사실 검증을 위해 주장‑근거 매칭 정확도와 위배 신호(Conflict Edge) 탐지를 평가한다. 각 세트는 고정된 트레인/밸리데이션/테스트 스플릿과 베이스라인 결과를 공개해 재현성을 보장한다.
규모 면에서 FactNet은 1.7 B FactStatement, 1.55 B FactSynset, 3.01 B FactSense, 3.69 B RelationEdge를 포함한다. 12.1 K 속성(프로퍼티)과 316개 언어를 아우르며, 관계 엣지는 Direct Join, Schema‑Based Relation, Conflict Signal 등 세 가지 유형으로 구분돼 신뢰도 티어가 부여된다. 데이터 포맷은 JSONL/Parquet 샤드와 인덱싱 스크립트로 제공되며, 모든 메타데이터(페이지 ID, 리비전 ID, 오프셋 등)는 CC‑BY‑SA 라이선스 하에 별도 패키지로 배포돼 위키미디어 저작권을 준수한다.
전체적으로 FactNet은 “구조화된 지식 + 인간이 직접 쓴 근거”를 대규모로 결합한 최초의 공개 리소스로, 결정론적 파이프라인을 통해 완전한 감사 가능성을 제공한다. 이는 LLM 기반 시스템이 외부 증거를 검증·인용하는 데 필요한 기반 인프라를 제공함으로써, 사실성, 투명성, 다국어 적용 가능성을 크게 향상시킬 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기