완전당시시의 색채와 사회망 데이터 기반 탐구
초록
본 논문은 완전당시시(CTP)를 디지털 인문학 도구로 분석한다. 분포 의미론과 연어 통계로 이백·두보의 ‘바람’·‘달’ 사용 차이를 비교하고, 색채 특히 ‘흰색’의 빈도와 대조 구절에서의 역할을 탐색한다. 인명 추출을 통해 시인들의 사회적 연결망을 구축하고, 이를 하버드 중국 전기 데이터베이스와 연계한다.
상세 분석
CTP 전집을 텍스트 마이닝 파이프라인에 투입해 어휘 빈도, 동시출현 행렬, 워드 임베딩을 생성하였다. 먼저 ‘바람’과 ‘달’이라는 핵심 이미지 어휘를 중심으로, 이백과 두보 각각의 시에서의 주변 단어 분포를 비교했다. 이때 이백은 ‘바람’과 결합된 동사와 감각 어휘가 풍부해 동적·초월적 분위기를 조성하고, 두보는 ‘달’과 결합된 정서·역사적 어휘가 주를 이루어 서정적·사색적 정서를 강조한다는 점을 정량적으로 입증하였다. 색채 어휘 분석에서는 전체 색어 중 ‘흰색’이 가장 높은 빈도를 보이며, 특히 ‘흰색’이 ‘눈’, ‘산’, ‘옷’ 등과 함께 등장할 때 시각적 명료성을 높이고, 대조 구절(대구)에서 ‘흰‑검은’, ‘흰‑청’ 등 반대 색을 짝지어 이미지의 대비를 강화한다는 패턴을 발견했다. 대구 분석에서는 색채가 음운적 조화와 의미적 대립을 동시에 만족시키는 구조적 역할을 함을 확인하였다. 인명 인식 단계에서는 전통적인 사전 기반 엔티티 추출과 최신 딥러닝 기반 NER 모델을 결합해 1,200여 인물을 식별했으며, 각 인물 간 언급 관계를 그래프 형태로 정리했다. 네트워크 중심성 지표와 커뮤니티 탐지를 통해 주요 시인 클러스터와 그 주변의 문인·관료·예술가 집단을 시각화했고, 이를 CBDB(China Biographical Database)와 매칭해 연대별·지리별 연결망 변천을 추적하였다. 전체 분석 과정은 파이썬 기반의 pandas, gensim, networkx, spaCy 등을 활용했으며, 재현성을 위해 코드와 데이터 전처리 스크립트를 공개하였다.