무료 세계 뉴스 전체 텍스트 재구성: GDELT 기반 n‑gram 융합 기법
초록
본 논문은 GDELT Web News NGrams 3.0 데이터셋의 중복 n‑gram을 활용해 전 세계 온라인 뉴스의 전체 텍스트를 저비용으로 재구성하는 파이썬 패키지 gdeltnews를 소개한다. 위치 메타데이터와 최대 중첩 전략을 결합해 기사별로 연속적인 텍스트를 복원하고, 2 211개의 미국 주요 매체 기사에 대해 레벤슈타인·SequenceMatcher 기반 95 % 이상의 유사도를 달성했다. 무료 접근성, 확장성, 법적 투명성을 강조하며, 경제·사회·언어 연구에 큰 활용 가능성을 제시한다.
상세 분석
이 연구는 기존 뉴스 텍스트 확보 방식이 고비용(구독·라이선스) 혹은 제한적(스크래핑·최근 기사)이라는 문제점을 정확히 진단하고, GDELT가 제공하는 방대한 n‑gram 스트림을 ‘조각 퍼즐’처럼 맞추는 새로운 재구성 파이프라인을 설계했다. 핵심은 각 unigram에 부여된 ‘데시멀 위치 지표’를 활용해 기사 내 순서를 추정하고, 겹치는 구간을 최대한 활용해 단어 수준에서 겹침(overlap) 매트릭스를 계산, 가장 긴 공통 서브시퀀스를 찾아 연결한다. 이 과정에서 중복 n‑gram을 제거하고, 동일 기사 내 중복 발생 시 가중치를 부여해 노이즈를 억제한다.
알고리즘 구현은 파이썬 기반이며, gdeltnews 패키지는 데이터 다운로드, 전처리, n‑gram 매칭, 기사 재조립, 중복 제거, 메타데이터 정제까지 전 과정을 자동화한다. 특히, 1‑type(공백 기반) 언어에 최적화돼 있어 영어·스페인어 등 주요 서구 언어에서 높은 재구성 정확도를 보인다. 검증 단계에서는 Event Registry에서 확보한 원본 기사와 재구성 결과를 레벤슈타인 거리와 difflib.SequenceMatcher 점수로 비교했으며, 평균 0.92 ~ 0.95의 유사도를 기록했다. 이는 기존 n‑gram 기반 텍스트 분석이 전제하는 ‘전체 텍스트 존재’ 가정 없이도 실용적인 텍스트 복원이 가능함을 입증한다.
한계점으로는 2‑type(연속 문자) 언어(중국어·일본어 등)에서의 적용이 아직 미비하고, 위치 메타데이터가 불완전하거나 오류가 있는 경우 재구성 품질이 급격히 저하될 수 있다. 또한, n‑gram 자체가 짧은 경우(특히 1‑gram)에는 의미적 연결이 약해 기사 구조를 정확히 복원하기 어려워, 향후 n‑gram 길이와 품질에 대한 필터링 전략이 필요하다.
연구의 의의는 두 가지다. 첫째, 무료이면서도 대규모(2020년 이후 42 억 단어) 뉴스 텍스트를 실질적으로 활용할 수 있게 함으로써, 데이터 비용 장벽을 크게 낮춘다. 둘째, 재구성된 텍스트는 LLM 훈련, 감성 분석, 이벤트 탐지 등 다양한 NLP 파이프라인에 바로 투입 가능하므로, 학계·산업 모두에서 데이터 접근성을 크게 향상시킨다. 향후 연구에서는 2‑type 언어 지원, 멀티‑언어 동시 재구성, 그리고 재구성 품질을 자동 평가하는 메트릭 개발이 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기