라틴 문헌 상호텍스트 탐지를 위한 새로운 벤치마크 Loci Similes

라틴 문헌 상호텍스트 탐지를 위한 새로운 벤치마크 Loci Similes
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 라틴어 고전·후기 텍스트 간의 상호텍스트 연결을 자동으로 탐지하기 위한 벤치마크 Loci Similes를 제시한다. 약 172 천 개의 텍스트 세그먼트와 545개의 전문가 검증 패러렐을 포함한 데이터셋을 구축하고, 전통적 n‑gram 방식에서 벗어난 의미 기반 검색·분류 모델을 평가한다.

상세 분석

Loci Similes는 라틴어 문헌 연구에서 가장 오래된 문제 중 하나인 ‘인용·전승·암시’ 탐지를 현대 NLP와 연결시키려는 시도다. 데이터 구성은 두 부분으로 나뉘는데, 후기 라틴 저자(제롬, 라크탄티우스)의 83 k 세그먼트를 질의 코퍼스로, 고전 저자(키케로·베르길리우스·오비드 등) 88 k 세그먼트를 소스 코퍼스로 설정했다. 이는 기존 연구가 주로 단일 저자·단일 장르에 국한됐던 점을 넘어, 다중 저자·다중 장르 간의 교차 검증을 가능하게 한다.

Ground‑truth는 두 단계로 구축됐다. 첫째, 기존 학술 데이터베이스(예: Schropp et al., 2024b)에서 270개의 명시적 인용·패러프레이즈·알루전 사례를 추출하고, 중복·불명확성을 제거해 545개 전체 중 절반에 해당하는 기본 집합을 만든다. 둘째, n‑gram 기반 후보 탐색 파이프라인을 적용해 새로운 후보 275개를 도출하고, 라틴어 전문 연구자 4명이 ‘희귀 어휘·문맥 일관성·전통적 인용 가능성’ 기준으로 수작업 검증했다. 이 과정에서 ‘불용어·일반 구문·동시 발생 어구’를 필터링해 높은 정밀도를 확보했다.

평가 프레임워크는 기존 정보 검색(IR) 방식과 달리 ‘문서‑대‑문서’ 매칭을 강조한다. 즉, 질의 문장이 소스 문서 전체와 얼마나 의미적으로 연결되는지를 점수화해, 실제 학술 작업 흐름(예: 특정 저자의 전체 인용 패턴 분석)과 일치하도록 설계했다. Baseline 실험에서는 정적 Word2Vec, 라틴어 전용 Transformer(LatinBERT), 다국어 Sentence‑Transformer(SPhilBerta) 등을 활용했으며, 각각 임베딩 기반 유사도 순위, 이진 분류, 엔드‑투‑엔드 파이프라인 성능을 보고한다. 결과는 정적 임베딩보다 컨텍스트 기반 모델이 평균 12 % 이상 MAP(Mean Average Precision) 향상을 보였으며, 특히 ‘미묘한 알루전’ 탐지에서 큰 차이를 나타냈다.

기술적 기여는 데이터셋 자체뿐 아니라, 라틴어와 같이 형태소 변형·정규화가 복잡한 고전 언어에 맞춘 평가 기준과 파이프라인을 제공한다는 점이다. 또한, ‘희귀 어휘·문맥 변형·구조적 재배열’ 등 다양한 상호텍스트 유형을 taxonomy(그림 2)로 정리해, 향후 모델이 어떤 유형에 강점·약점을 보이는지 체계적으로 분석할 수 있게 한다. 한계점으로는 현재 데이터가 후기 라틴 저자와 고전 저자 사이에 편중돼 있어, 초기 라틴어(예: 로마 초기 시인)와 중세 라틴어 간의 연결을 다루기엔 부족하다는 점이다. 또한, 인간 전문가 검증이 비용이 많이 드는 구조이므로, 향후 반자동 라벨링 기법이 필요하다.

전반적으로 Loci Similes는 라틴어 텍스트 재사용 연구에 표준화된 벤치마크를 제공함으로써, 언어 모델 기반 상호텍스트 탐지 연구를 가속화하고, 고전학·디지털 인문학 간의 협업을 촉진할 잠재력을 가진다.


댓글 및 학술 토론

Loading comments...

의견 남기기