텍스트 속 진실과 허구를 구분하는 복합 네트워크 패턴 인식
초록
본 논문은 소설과 뉴스 기사라는 두 종류의 서술을 복합 네트워크 모델로 변환한 뒤, 정점의 차수 분포와 클러스터링 계수 등 네트워크 특성을 이용해 두 텍스트 군을 구별한다. 단어 간 거리 $m$을 조절하고 최소 텍스트 길이를 탐색한 결과, $m=4$와 100~200단어가 최적임을 확인했으며, 차수 분포는 $k=\sqrt{N}$에서 전환되는 두 개의 파워‑법칙을 보인다. 선형 판별 분석을 적용한 분류 정확도는 소설 73.8 %±5.15, 뉴스 69.1 %±1.22로 보고된다.
상세 분석
이 연구는 텍스트를 복합 네트워크로 모델링함으로써 서술 장르를 정량적으로 구분하려는 시도이다. 먼저, 각 텍스트를 $N$개의 고유 단어(정점)와, 두 단어가 텍스트 내에서 $m$ 이하의 위치 차이를 가질 때 연결하는 방식으로 그래프를 구축한다. 여기서 $m$은 ‘단어 거리’라 불리며, 인접성의 범위를 조절한다. 저자는 $m$을 1부터 10까지 변화시켜 네트워크 구조가 어떻게 변하는지 실험했으며, $m=4$일 때 차수 분포 $P(k)$와 클러스터링 계수 $C(k)$가 가장 뚜렷한 파워‑법칙 형태를 보였다.
차수 분포는 $k$가 $\sqrt{N}$ 이하인 구간에서는 지수 $\gamma_1$을, 그보다 큰 구간에서는 다른 지수 $\gamma_2$를 갖는 두 개의 선형 구간으로 나뉘었다. 이는 텍스트 내에서 흔히 등장하는 일반 단어와, 드물게 등장하지만 의미적으로 핵심적인 단어가 서로 다른 연결 패턴을 형성한다는 해석을 가능하게 한다. 클러스터링 계수 $C(k)$ 역시 $k$와 반비례하는 형태를 띠며, 높은 차수를 가진 정점일수록 주변 정점 간 연결이 적어지는 경향을 보여준다.
또한 평균 최단 경로 길이 $\langle l\rangle$를 계산한 결과, 모든 텍스트가 ‘스몰 월드’ 특성을 보였으며, $N$이 증가해도 $\langle l\rangle$는 로그 수준으로만 증가했다. 이는 단어 네트워크가 효율적인 정보 전달 구조를 갖는다는 기존 연구와 일치한다.
분류 단계에서는 차수 분포의 두 지수, 클러스터링 계수의 기울기, 평균 최단 경로 등 5개의 네트워크 지표를 입력 변수로 사용해 선형 판별 분석(LDA)을 수행했다. 교차 검증 결과, 소설과 뉴스 기사 각각에 대해 73.8 %±5.15와 69.1 %±1.22의 정확도를 얻었으며, 특히 텍스트 길이가 100~200단어 사이일 때 가장 높은 성능을 보였다. 이는 너무 짧은 텍스트는 네트워크 구조가 충분히 발달하지 못하고, 너무 긴 텍스트는 장르 간 차이가 희석되는 현상을 반영한다.
한계점으로는 어휘 다양성(레키시컬 다양성)이나 문체적 요소를 직접 반영하지 못한다는 점, 그리고 $m$과 $N$을 고정했을 때 다른 장르(예: 과학 논문, 블로그 포스트)에서의 일반화 가능성을 검증하지 않았다는 점을 들 수 있다. 향후 연구에서는 가중치 네트워크(동시 등장 빈도 기반 가중치)와 다중 스케일 분석을 도입해 보다 정교한 장르 구분 모델을 구축할 수 있을 것이다.
댓글 및 학술 토론
Loading comments...
의견 남기기