그래프와 검색 강화로 텍스트 인코딩, 허위정보 탐지 혁신
초록
TEGRA는 텍스트를 OpenIE 기반 그래프로 변환하고, 외부 지식베이스와 결합해 하이브리드 임베딩을 만든 뒤, 그래프‑주의 네트워크와 언어 모델을 통합해 허위정보 탐지 성능을 크게 향상시킨 프레임워크이다.
상세 분석
본 논문은 기존 언어 모델이 텍스트 내부에 암묵적으로 저장한 지식을 명시적 그래프 형태로 외부 지식과 연결함으로써, 허위정보 탐지의 정확도와 해석 가능성을 동시에 개선하고자 한다. 핵심 아이디어는 두 단계로 구성된다. 첫 번째 단계인 TEG(Text Encoding with Graph)에서는 입력 문서를 OpenIE6 혹은 LLM‑프롬프트 기반 KGI 모델을 이용해 삼중항(주어‑동사‑목적어) 형태의 그래프를 추출한다. 이 그래프는 표면 수준의 트리플이 다소 노이즈가 있더라도, 엔터티‑관계‑액션을 명시적으로 드러내어 장거리 의존성을 완화한다. 두 번째 단계인 TEGRA는 이렇게 만든 그래프에 외부 지식베이스(KG true, KG misinfo)의 URI‑연결 정보를 추가한다. DBpedia Spotlight와 BLINK을 통해 엔터티를 URI에 매핑하고, SPARQL 질의를 통해 해당 엔터티와 연관된 삼중항을 가져와 그래프에 삽입한다. 여기서 Triple Selection 모듈은 fastText 임베딩 기반으로 각 추가 트리플의 relevance score µ를 계산해, 불필요하거나 오염된 정보가 그래프에 과도히 영향을 미치지 않도록 가중치를 조정한다. 그래프 인코더는 경량화된 fastText 노드 임베딩 → GAT 기반 메시지 전달 → 최대·평균 풀링 순으로 진행되며, 최종적으로 텍스트 임베딩(RoBERTa‑a)과 결합해 2‑계층 MLP 분류 헤드에 입력한다. 실험에서는 PolitiFact, GossipCop, CoAID, Horne2017 네 개 데이터셋에 대해 5‑fold 랜덤 스플릿(80/10/10)으로 학습·평가했으며, 동일한 데이터 분할을 지식베이스 구축에 사용해 정보 누수를 방지하였다. 결과는 텍스트‑전용 RoBERTa와 Gemma‑3‑12B zero/three‑shot 대비, TEG가 평균 23%p, TEGRA가 추가 12%p의 정확도·Macro‑F1 향상을 보여준다. 특히, KG true와 KG misinfo를 각각 별도 그래프(G_true, G_misinfo)로 확장함으로써, 진실과 허위 트리플 간의 일관성·불일치를 비교 분석할 수 있는 추가적인 신호를 제공한다. 이 접근법은 엔터티 중심의 그래프가 기존 KG와 자연스럽게 매핑될 수 있다는 점, 그리고 Triple Selection을 통해 노이즈를 효과적으로 억제한다는 점에서 기존 KG‑통합 방법(CompareNet, DDGCN 등)보다 구현 복잡도가 낮고, 도메인‑특정 지식베이스를 손쉽게 삽입할 수 있다는 장점을 가진다. 다만, OpenIE 트리플의 품질에 크게 의존하고, 대규모 엔터티 매핑·SPARQL 질의 비용이 증가할 경우 실시간 서비스 적용에 제약이 있을 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기