저자 스타일에 따른 단어 네트워크와 간헐성 측정 비교 연구
초록
본 논문은 8명의 19~20세기 작가가 쓴 40권의 소설을 대상으로, 단어 동시출현 네트워크의 구조적 지표(클러스터링 계수, 평균 최단 경로, 매개 중심성)와 단어 등장 간헐성(버스트니스)의 통계적 특성이 저자에 따라 얼마나 달라지는지를 정량화한다. 결과는 간헐성 분포의 왜도와 평균 최단 경로가 저자 구분에 가장 민감한 반면, 매개 중심성과 Zipf 지수는 약한 의존성을 보인다. 네트워크와 간헐성 특징을 결합한 최근접 이웃 분류기로 약 65%의 정확도를 달성했으며, 두 접근법이 서로 보완적인 장점을 제공함을 확인했다.
상세 분석
본 연구는 텍스트를 복합 네트워크와 동적 시스템의 관점에서 동시에 분석함으로써, 기존의 단어 빈도 기반 저자 식별 방법을 확장한다. 데이터베이스는 8명의 작가(각 5권씩)로 구성되며, 모든 텍스트는 18 200 토큰으로 동일 길이로 절단해 비교 편향을 최소화하였다. 전처리 단계에서는 기능어(stop‑words)를 제거하고, 형태소 분석기를 이용해 어간을 통일(lemmatization)함으로써 의미적 일관성을 확보하였다.
네트워크 구축은 단어를 정점, 인접 단어를 방향성 가중 엣지로 연결하는 동시출현 방식이다. 가중치 wᵢⱼ는 단어 vⱼ가 vᵢ 바로 뒤에 등장한 횟수를 나타내며, 비가중 무방향 행렬 A는 최소 한 번이라도 공동 출현했는지를 기록한다. 이 구조를 바탕으로 세 가지 로컬 지표를 계산하였다. 클러스터링 계수 Cᵢ는 이웃 정점 간 연결 밀도를 측정해, 특정 의미 영역에 국한된 단어가 높은 값을, 범용적 단어가 낮은 값을 갖는 경향을 보였다. 평균 최단 경로 Lᵢ는 정점 vᵢ가 네트워크 중심(고빈도 단어)까지의 평균 거리로, 빈도와는 약한 음의 상관(Corr(L,N)=‑0.36)만을 보이며, 이웃 구조가 거리 결정에 핵심 역할을 함을 확인했다. 매개 중심성 Bᵢ는 네트워크 흐름에서의 중개 역할을 정량화했지만, 저자 간 차이는 미미했다.
간헐성 측정은 각 단어의 등장 간격을 레벨 통계로 변환해 버스트니스 지표를 도출하고, 그 분포의 왜도(스큐니스)를 전역 특성으로 사용하였다. 저자별로 이 왜도의 차이가 가장 크게 나타났으며, 이는 특정 작가가 특정 의미군을 집중적으로 사용하거나, 반대로 고르게 분포시키는 스타일 차이를 반영한다는 해석이 가능하다.
머신러닝 단계에서는 네트워크 지표와 간헐성 왜도를 조합한 피처 벡터를 3가지 분류기(k‑NN, SVM, Random Forest)로 학습시켰다. 가장 높은 성능은 k‑NN에서 65% 정확도로 나타났으며, 이는 전통적인 기능어 빈도 기반 방법보다 낮지만, 네트워크와 간헐성 정보가 서로 보완함을 시사한다. 특히, 단일 피처(예: 평균 최단 경로)만 사용할 경우 정확도가 50% 이하로 떨어지는 반면, 두 피처를 결합하면 성능이 현저히 향상된다.
결론적으로, 텍스트의 단기(동시출현)와 장기(간헐성) 구조를 동시에 고려하면 저자 스타일을 다각도로 포착할 수 있다. 클러스터링 계수와 매개 중심성은 저자 구분에 제한적이지만, 평균 최단 경로와 간헐성 왜도는 저자 고유의 언어 사용 패턴을 효과적으로 드러낸다. 이러한 결과는 토픽 단어 탐지, 정보 검색, 그리고 저자 식별 시스템에 새로운 피처 세트를 제공한다는 점에서 학문적·실용적 의의를 가진다.
댓글 및 학술 토론
Loading comments...
의견 남기기