꿈의 붉은 방 저자 구분 새로운 통계적 접근

초록

본 논문은 《홍루몽》 전·후반 80장과 40장의 저자 차이를 검증하기 위해 서포트 벡터 머신과 상대 빈도 기반 특징 선택을 결합한 ‘시간 구분(chrono‑divide)’ 방법을 제시한다. 실험 결과, 앞부분과 뒤부분 사이에 명확한 스타일 전이가 존재함을 확인했으며, 67장의 저자 역시 원저자와 일치하지 않음을 제시한다. 동일 방법을 다른 삼대 명작에 적용했을 때는 구분이 나타나지 않아 방법의 신뢰성을 뒷받침한다.

상세 분석

이 연구는 전통적인 문체학과 최신 기계학습 기법을 융합한 독창적인 저자 구분 모델을 설계하였다. 핵심 아이디어는 ‘chrono‑divide’라는 개념으로, 텍스트를 시간 순서대로 나누어 각 구간의 스타일 변화를 정량화한다는 점이다. 이를 구현하기 위해 먼저 텍스트를 일정 길이의 단위(예: 500문장)로 슬라이딩 윈도우 방식으로 분할하고, 각 구간에서 1,000여 개의 문자‑n그램, 어휘‑n그램, 구문‑패턴 등을 추출한다. 특징 선택 단계에서는 ‘relative frequency’라는 새로운 메트릭을 도입했는데, 이는 특정 구간에서의 특징 출현 빈도와 전체 코퍼스 평균 빈도의 비율을 로그 변환한 값으로, 저자 간 차이를 강조하면서도 드물게 나타나는 잡음 특징을 억제한다.

선택된 특징들은 서포트 벡터 머신(SVM) 분류기에 입력된다. SVM은 선형 커널과 RBF 커널을 모두 실험했으며, 교차 검증을 통해 최적의 정규화 파라미터(C)와 감마값을 도출하였다. 특히, 클래스 불균형 문제를 해결하기 위해 비용 민감 학습(cost‑sensitive learning)을 적용했으며, 이는 앞부분(80장)과 뒤부분(40장) 사이의 샘플 수 차이를 보정한다. 모델 훈련 후에는 각 구간에 대한 결정 함수 값(decision function)을 시계열적으로 플롯하여 ‘전이점’(transition point)을 시각화한다. 전이점이 급격히 변하는 구간은 스타일이 크게 달라졌음을 의미한다.

실험 결과, 80장과 40장 사이에서 결정 함수 값이 급격히 전환되는 지점이 명확히 관찰되었으며, 이는 두 구간이 서로 다른 저자에 의해 작성되었음을 강력히 시사한다. 또한, 67장에 대한 개별 분석에서는 해당 구간이 앞부분과 뒤부분 모두와 거리(metric)상으로 멀리 떨어져 있어, 기존 학설과 달리 이 장 역시 원저자와 일치하지 않을 가능성을 제시한다.

방법론의 일반화 가능성을 검증하기 위해 동일 프로세스를 《수호전》, 《삼국지연의》, 《서유기》에 적용하였다. 이 세 작품에서는 전이점이 거의 존재하지 않았으며, 결정 함수 값이 전 구간에 걸쳐 평탄하게 유지되었다. 이는 제안된 ‘chrono‑divide’ 모델이 실제 저자 변화를 탐지하는 데 높은 민감도와 낮은 위양성률을 갖는다는 것을 뒷받침한다.

한계점으로는 텍스트 전처리 단계에서 현대어와 고전어의 혼용, 그리고 원본 사본 간의 변형이 결과에 미치는 영향을 완전히 배제하지 못했다는 점을 들 수 있다. 향후 연구에서는 다중 사본 비교와 베이지안 모델링을 결합해 불확실성을 정량화하는 방향을 제안한다.