텍스트 네트워크 시각화 이미지 분석을 통한 저자 식별 혁신
초록
본 연구는 텍스트를 메소스코픽 네트워크로 변환하고, 네트워크의 위상 특성과 시각화 이미지의 형태학적·주파수 특성을 동시에 추출한다. 이미지 기반 특징과 기존 위상 기반 특징을 결합한 분류 모델이 10명 작가의 50개 영문 텍스트에서 저자 식별 정확도를 58%까지 끌어올렸다.
상세 분석
이 논문은 기존 텍스트 네트워크 분석에 시각적 이미지 특성을 추가함으로써 저자 식별(task of authorship attribution)에 새로운 차원을 제시한다. 먼저 텍스트 전처리 단계에서 불용어와 형태소를 제거·표제어화한 뒤, 문단을 기본 단위로 삼아 Δ개의 연속 문단을 하나의 노드로 정의한다. 각 노드 간 가중치는 tf‑idf 기반 코사인 유사도로 계산되며, 전체 네트워크의 평균 차수를 40으로 맞추기 위해 낮은 가중치의 엣지를 차례로 삭제한다. 이렇게 구성된 메소스코픽 네트워크는 기존 연구에서 보여준 서사 흐름의 구조적 정보를 보존한다.
시각화는 힘‑기반 레이아웃(Force‑directed algorithm)을 사용해 2차원 평면에 배치하고, 이후 이진화·팽창·침식 과정을 거쳐 잡음이 최소화된 바이너리 이미지로 변환한다. 이미지에서 추출된 특징은 크게 형태학적(면적, 둘레, 오일러 수, 최소 포위 원 반경·중심, 볼록 껍질 면적·둘레·잔여 면적, 신장도)과 텍스처·주파수적(라쿠날리티, 푸리에 변환의 링별 평균·표준편차·엔트로피)으로 구분된다. 특히 라쿠날리티는 이미지 내 구멍(공극)의 크기 변동성을 정량화해 네트워크 구조의 복잡성을 이미지 수준에서 반영한다.
분류는 지도학습이 아닌 K‑Means 군집화를 사용했으며, 네트워크 위상 특징(NF), 이미지 특징(IF), 그리고 두 집합을 결합한 IF+NF 세 가지 경우에 대해 정확도를 비교하였다. 단일 특징군만 사용했을 때는 약 54%의 정확도를 보였으나, 두 특징을 결합했을 때 58%로 소폭 상승하였다. 이는 이미지 기반 특징이 위상 기반 특징과 상보적인 정보를 제공한다는 실험적 증거다.
하지만 몇 가지 한계도 존재한다. 첫째, K‑Means는 군집 수를 사전에 지정해야 하는 비지도 방법으로, 실제 저자 수가 알려지지 않은 상황에서는 적용이 어려울 수 있다. 둘째, 평균 차수를 40으로 고정한 임계값 선택이 데이터셋에 따라 최적이 아닐 가능성이 있다. 셋째, 이미지 특징 추출 과정에서 힘‑기반 레이아웃 파라미터가 고정되어 있어 레이아웃 변동에 따른 특징 변동성을 평가하지 않았다. 향후 연구에서는 지도학습 기반 분류기(예: SVM, Random Forest)와 하이퍼파라미터 최적화를 결합하고, 레이아웃 다양성을 고려한 앙상블 이미지 특징을 도입하면 성능 향상이 기대된다.
전반적으로 텍스트 네트워크의 시각적 표현을 정량화한다는 접근은 기존 텍스트 마이닝에 새로운 시각을 제공하며, 특히 저자 스타일이 구조적·시각적 패턴으로 동시에 드러나는 경우에 유용할 것으로 보인다.
댓글 및 학술 토론
Loading comments...
의견 남기기