다방지 사료에서 인물 정보 추출을 위한 언어 모델 기반 접근
초록
본 논문은 송·청 시대의 지방 연감(다방지) 텍스트를 자동으로 마이닝하여 인물·관직·지명 정보를 추출하고, 이를 중국 인물 데이터베이스에 연계하는 방법을 제시한다. 최신 언어 모델을 활용한 명명된 개체 인식(NER) 파이프라인을 구축하고, 사전 구축된 관직·지명 사전과 결합해 정확도를 높였다. 실험 결과, 기존 규칙 기반 방법에 비해 재현율·정밀도가 크게 향상되었으며, 추출된 데이터는 인물 간 네트워크 분석에 바로 활용될 수 있다.
상세 분석
이 연구는 전통적인 사료 디지털화 작업에 최신 자연어 처리(NLP) 기술을 접목한 사례로, 특히 대규모 비구조화 텍스트인 다방지(地方志)를 대상으로 한다. 먼저, 다방지의 특성을 분석했는데, 문체가 고전 한문이며, 인물 이름, 관직, 지명 등이 연속적으로 등장하고 종종 약어·동음이의어가 혼재한다는 점을 지적한다. 이러한 특성은 기존의 한문 형태소 분석기만으로는 충분히 처리하기 어려워, 사전 기반 규칙과 딥러닝 기반 언어 모델을 혼합한 하이브리드 파이프라인을 설계하였다.
핵심 모델은 사전 학습된 BERT‑like 중국 고전어 모델을 기반으로, 다방지 전용 라벨링 데이터를 추가 학습시킨 NER 모델이다. 라벨링 작업은 인명, 관직, 지명, 연도 등 네 가지 엔터티 타입을 정의하고, 전문가가 직접 교정한 5만 문장을 사용했다. 모델 학습 단계에서는 CRF 레이어를 결합해 토큰 간 의존성을 보강했으며, 데이터 불균형을 완화하기 위해 focal loss와 데이터 증강(동의어 교체, 문장 순서 변형)을 적용했다.
전처리 과정에서는 전통적인 한문 형태소 분석기와 맞춤형 사전을 활용해 토큰화를 수행하고, 관직·지명 사전을 이용해 후보 엔터티를 사전 필터링했다. 이 단계에서 고유명사와 관직 명칭이 겹치는 경우, 문맥 기반 확률 점수를 계산해 최종 라벨을 결정한다. 또한, 인물 간 관계(예: 부자, 스승·제자, 동료)와 같은 구조적 정보를 추출하기 위해 관계 추출 모델을 별도로 학습했으며, 이는 추후 네트워크 그래프 구축에 활용된다.
평가에서는 기존 규칙 기반 시스템과 비교해 F1 점수에서 12%p 상승을 기록했으며, 특히 관직 명칭 인식에서 18%p 이상의 개선을 보였다. 오류 분석 결과, 동음이의어와 시대별 관직 변천에 따른 명칭 변형이 주요 오인 원인으로 파악되었으며, 이를 해결하기 위해 시계열 기반 사전 업데이트와 다중 스케일 컨텍스트 윈도우를 도입할 계획이다.
이 논문은 학술 데이터베이스(China Biographical Database)와의 연동을 목표로 하며, 추출된 엔터티와 관계 데이터를 RDF 형태로 변환해 온톨로지 기반 질의에 활용한다. 결과적으로, 방대한 다방지 자료에서 자동으로 인물 네트워크를 구축함으로써, 전통적인 인문학 연구에서 소요되던 수작업을 크게 감소시키고, 새로운 역사적 연결 고리를 발견할 수 있는 기반을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기