다국어 시계열 말뭉치와 의미변화 모델링을 위한 대규모 DHPLT 자원
초록
DHPLT는 41개 언어에 대해 2011‑2015, 2020‑2021, 2024‑현재의 세 시점에 각각 100만 문서(소규모 언어는 50만 문서)로 구성된 공개 다국어 diachronic 코퍼스를 제공한다. 웹 크롤링 타임스탬프를 문서 생성 시점의 상한선으로 활용하고, 사전 정의된 목표 단어에 대해 static word2vec, T5·XLM‑R·GPT‑BERT 기반 토큰 임베딩, lexical substitution, 빈도 통계 등을 미리 계산해 배포한다.
상세 분석
DHPLT는 기존 LSCD(lexical semantic change detection) 연구가 고리소스 언어 10여 개에 국한돼 있던 문제를 근본적으로 해결하려는 시도다. 첫째, HPLT v3.0이라는 대규모 웹 크롤링 기반 말뭉치를 활용해 41개 언어(12개 언어계통)로 범위를 확장했으며, 각 언어마다 최소 0.5 M 문서를 확보해 통계적 신뢰성을 확보했다. 크롤링 타임스탬프를 ‘상한선’으로 삼아 문서 생성 시점을 추정하는 방법은 전통적인 사료 기반 코퍼스보다 정확도는 낮지만, 전 세계 언어에 일관된 시계열 데이터를 제공한다는 점에서 실용적이다.
둘째, 목표 단어 선정 파이프라인은 T5 모델 어휘에서 명·동·형을 추출하고, 빈도와 스크립트 기준을 적용해 평균 18 600개의 후보를 확보한다. 어간(lema) 기준으로 통합해 의미 변화 분석 시 형태 변이의 영향을 최소화한다.
셋째, 다양한 표현 방법을 동시에 제공한다는 점이 큰 강점이다. SGNS(word2vec) 기반 static embedding은 300 차원, 50 k 빈도 상위 단어에 대해 Procrustes 정렬을 수행해 시점 간 직접 비교가 가능하도록 했다. 동시에, T5·XLM‑R·GPT‑BERT 모델을 이용해 1 000·100개의 토큰 임베딩과 15개의 lexical substitute를 각각 추출해, 의미 변화량을 거리 기반, 클러스터 기반, 대체 기반 등 다각도로 측정할 수 있다.
넷째, 데이터와 코드가 모두 CC0 라이선스로 공개돼 재현성과 확장성이 뛰어나다. 연구자는 제공된 JSONL 파일을 그대로 사용하거나, 공개된 파이프라인을 수정해 자신만의 시점 구분, 언어 선택, 목표 단어 집합을 정의할 수 있다.
하지만 몇 가지 한계도 존재한다. 크롤링 타임스탬프는 실제 작성 시점보다 늦을 수 있어, 특히 2024 시점에 과거 문서가 섞일 가능성이 있다. 이는 의미 변화 검출 시 ‘노이즈’로 작용할 수 있다. 또한, 목표 단어가 어휘 사전 기반으로 선정되므로, 저빈도 신조어나 지역 방언은 제외될 위험이 있다. 마지막으로, 41개 언어 중 일부는 문서 품질이 낮거나 중복이 많이 포함될 수 있어 전처리 단계에서 추가 정제가 필요할 수 있다.
전반적으로 DHPLT는 다언어 시계열 말뭉치와 풍부한 표현 자원을 한 번에 제공함으로써, 의미 변화 모델링, 다국어 비교 연구, 그리고 언어별 문화·사회 변화 추적 등에 새로운 연구 지평을 열어준다.
댓글 및 학술 토론
Loading comments...
의견 남기기