동화 작가 스타일 지문 분석
초록
본 연구는 동화 장르 텍스트를 대상으로 파킨, 바세비츠, 레앤더 세 작가의 문체를 구별하기 위한 언어적 특성 선택과 지문화 방법을 탐구한다. 통계적 지표와 동적 학습 모델을 결합하여 저자별 고유 속성을 추출하고, 짧은 서사 구조와 단순 어휘를 활용해 효율적인 저자 식별을 시도한다.
상세 분석
이 논문은 저자 프로파일링 분야에서 전통적인 통계 기반 접근법과 최신 머신러닝 기법을 융합하는 새로운 프레임워크를 제시한다. 연구자는 먼저 동화라는 장르적 특성을 활용해 텍스트의 길이와 구조적 복잡성을 최소화함으로써 저자 고유의 스타일 요소가 더 명확히 드러날 수 있는 실험 환경을 구축한다. 파킨, 바세비츠, 레앤더 세 작가의 작품을 동일한 전처리 파이프라인에 적용했으며, 토큰화, 형태소 분석, 불용어 제거 과정을 거쳐 기본 코퍼스를 만든다.
특성 선택 단계에서는 어휘 다양성 지표(타입‑토큰 비율, Hapax‑Legomena 비율), 기능어 사용 빈도, 구문 길이 분포, 문장 내 접속사·전치사·관사 사용 패턴, 그리고 특정 의미 영역(동물, 마법, 자연)에 대한 단어 빈도를 포함한 다차원 특성 집합을 설계한다. 특히 동화 텍스트에서 자주 등장하는 고유명사와 고정 표현을 제외하고, 작가가 선호하는 서술적 어휘와 문장 구조를 강조하기 위해 n‑gram 기반의 어휘 연관성 매트릭스를 추가하였다.
다음으로 동적 학습 모델로는 전통적인 로지스틱 회귀와 서포트 벡터 머신 외에, 저자별 스타일 변화를 실시간으로 반영할 수 있는 순환 신경망(RNN)과 트랜스포머 기반의 경량 어텐션 모델을 도입한다. 모델 학습 과정에서는 교차 검증을 통해 과적합을 방지하고, 각 특성의 중요도를 SHAP 값으로 정량화하여 해석 가능성을 높였다. 결과적으로, 어휘 다양성 지표와 기능어 패턴이 저자 구분에 가장 큰 기여를 했으며, RNN 기반 모델이 92 % 이상의 정확도로 세 작가를 구별하는 데 성공했다.
또한, 저자 간 스타일 유사성을 시각화하기 위해 차원 축소 기법(PCA, t‑SNE)을 적용했으며, 파킨과 레앤더는 어휘 선택에서 높은 상관성을 보이는 반면, 바세비츠는 구문 길이와 접속사 사용에서 독특한 패턴을 나타냈다. 이러한 분석은 동화라는 제한된 장르 내에서도 작가 고유의 서술적 서명(signature)을 효과적으로 추출할 수 있음을 입증한다.
마지막으로 논문은 현재 저자 지문화 연구에서 흔히 간과되는 ‘텍스트 선택’의 중요성을 강조한다. 장르와 텍스트 길이를 통제함으로써 통계적 잡음이 감소하고, 동적 학습 모델이 보다 안정적인 특징 학습을 수행할 수 있음을 실증적으로 보여준다. 향후 연구에서는 보다 다양한 장르와 다중 저자 상황에 적용하여 모델의 일반화 능력을 검증하고, 스타일 변천을 시간 흐름에 따라 추적하는 동적 지문화 기법을 개발할 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기