보이니치 필사본 생성 메커니즘 분석

초록

본 논문은 보이니치 원고의 단어 형태를 정밀히 비교하여, 동일하거나 유사한 철자를 가진 단어들이 일정한 규칙에 따라 변형·조합되는 방식을 밝혀냈다. 이를 통해 원고가 자연 언어가 아닌, 사전 정의된 어휘 집합과 변형 규칙을 이용해 자동 생성된 텍스트임을 제시한다.

상세 요약

보이니치 원고는 15세기 초반에 제작된 것으로 추정되는 미지의 문자 체계와 언어를 담고 있다. 기존 연구들은 통계적 언어학, 암호학, 그리고 이미지 분석 등을 활용해 원고의 구조를 해독하려 시도했지만, 일관된 결론에 이르지는 못했다. 본 논문은 ‘유사 철자 단어’라는 새로운 관점을 도입한다. 저자들은 먼저 원고 전체를 5~~7글자 길이의 토큰으로 분할하고, Levenshtein 거리와 n‑gram 기반 유사도 측정을 통해 철자 차이가 1~~2인 단어 쌍을 추출하였다. 이 과정에서 약 12 000개의 유사 단어 쌍이 식별되었으며, 이들 중 68 %는 특정 위치에서 일관된 변형 패턴을 보였다. 예를 들어, ‘qo’와 ‘qoꞏ’, ‘shol’과 ‘sholr’처럼 마지막 자음이 추가되거나 모음이 교체되는 경우가 빈번했다.

다음 단계에서는 변형 규칙을 그래프 형태로 모델링하였다. 각 노드는 고유 어휘(‘루트 단어’)를, 에지는 변형 연산(삽입, 삭제, 치환)을 나타낸다. 이 그래프는 매우 높은 연결성을 보였으며, 평균 차수는 4.3에 달했다. 특히 ‘삽입‑삭제’ 쌍이 가장 흔했으며, 이는 원고가 사전 정의된 ‘핵심 어휘 집합’에 무작위 혹은 의도된 변형을 적용해 새로운 토큰을 생성하는 방식을 시사한다.

통계적으로는 변형된 단어가 원본 대비 약 1.7배 더 많이 등장했으며, 변형 규칙 자체가 일정한 확률 분포를 따른다(삽입 0.42, 치환 0.31, 삭제 0.27). 이러한 확률적 특성은 마코프 체인 기반 텍스트 생성 모델과 유사하다. 저자들은 또한 변형 규칙이 페이지별, 섹션별로 미세하게 조정된다는 점을 발견했다. 예를 들어, 식물학 섹션에서는 ‘ㅍ’ 계열 삽입이, 천문학 섹션에서는 ‘ㄹ’ 계열 치환이 상대적으로 더 많이 나타났다. 이는 원고가 단순히 무작위 변형이 아니라, 특정 주제에 맞춰 변형 가중치를 조정한 ‘조건부 생성’ 방식을 사용했음을 의미한다.

마지막으로, 저자들은 이러한 규칙 기반 생성 메커니즘이 실제 인간이 손으로 쓰는 것이 아니라, 기계적 혹은 반자동적인 도구(예: 템플릿 기반 타이핑 장치)와 결합된 작업 흐름에 의해 구현되었을 가능성을 제시한다. 이는 원고의 필체가 일정 수준의 일관성을 유지하면서도, 문자 형태가 다양하게 변형되는 현상을 설명한다. 전체적으로, 논문은 보이니치 원고가 자연 언어가 아니라, 제한된 어휘와 변형 규칙을 이용한 인위적 텍스트 생성 결과물임을 강력히 뒷받침한다.

초록

상세 요약

📜 논문 원문 (영문)