스키트 원고 비교와 현대 통계 분석

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

스키트가 1886년 비평판을 위해 수집한 45개 《피어스 플라우먼》 사본의 발췌문을 대상으로, 편집 거리 기반 평균·분산·군집 분석을 수행하였다. 평균 문자열은 편집 거리 최소화 원칙으로 정의하고, 분산은 평균과의 평균 거리로 측정한다. 결과는 스키트가 제시한 ‘최선 행’, ‘변동이 적은 하위집’, ‘세 그룹 구분’ 주장과 정량적으로 일치함을 보여준다.

상세 분석

본 논문은 19세기 영문학 비평가 월터 스키트가 수집한 45개의 중세 영문 사본 발췌문을 현대 통계·계산 언어학 도구로 재분석한다. 첫 번째 분석은 스키트가 여러 사본에서 동일 시구를 모아 ‘최선 행(best line)’을 구성한 작업을 모방한다. 이를 위해 문자열 편집 거리(Levenshtein distance)를 거리 함수로 채택하고, 편집 거리 합이 최소가 되는 문자열을 평균(mean string)으로 정의한다. 이는 전통적인 산술 평균이 수치 데이터에만 적용되는 점을 확장한 것으로, 문자열 공간에서 중심값을 찾는 문제와 동일시된다. 평균 문자열을 구하는 과정은 전체 사본 집합에 대해 전체 조합을 탐색하거나, 메트로폴리스-해스팅스 알고리즘과 같은 근사 최적화 기법을 적용해 효율성을 확보한다.

두 번째 분석은 스키트가 ‘변동이 적은’ 특정 사본군을 제시한 것을 정량화한다. 여기서는 앞서 정의한 평균 문자열과 각 사본 문자열 간의 편집 거리 평균을 구해 분산(string variance)으로 표현한다. 분산이 낮은 사본군은 텍스트 변이도가 작아 원본에 가까운 형태를 유지하고 있음을 의미한다. 논문은 이 분산 값을 통해 스키트가 제시한 하위집이 실제로 통계적으로 유의미한 낮은 변동성을 보이는지 검증한다.

세 번째 분석은 사본들을 세 그룹으로 구분한다는 스키트의 가설을 검증하기 위한 군집화 작업이다. 편집 거리를 기반으로 거리 행렬을 구성하고, 계층적 군집법(agglomerative clustering)과 k-평균 군집법(k‑means, 거리 기반 변형) 두 가지 접근을 시도한다. 실루엣 점수와 Dunn 지수를 활용해 군집의 내부 결속도와 외부 분리도를 정량화하고, 최적 군집 수가 3임을 통계적으로 확인한다.

전체 결과는 세 가지 분석 모두에서 스키트의 직관적 판단과 높은 일치도를 보인다. 평균 문자열은 스키트가 제시한 ‘최선 행’과 문자 수준에서 거의 동일하며, 변동이 적은 사본군은 분산이 현저히 낮아 원본 텍스트 보존 정도가 뛰어남을 입증한다. 또한, 3개의 군집은 지역 방언적 특징과 사본 전승 경로에 따라 의미 있게 구분된다. 이러한 결과는 전통적인 문헌비교 작업에 정량적 방법을 도입함으로써, 편집자의 주관적 판단을 보완하고 재현 가능성을 높이는 데 기여한다.

스키트 원고 비교와 현대 통계 분석

초록

상세 분석

댓글 및 학술 토론

의견 남기기