공유된 유산 다른 글쓰기 동아시아 사료 자원 선택 재고
초록
본 논문은 고전 한문 자원을 한국의 한자·일본의 관문(칸분) 문서에 그대로 적용하는 것이 효과적이지 않음을 실증한다. 기계 번역, 개체명 인식, 구두점 복원 3가지 과업에서 고전 한문 데이터가 성능 향상에 미치는 영향은 미미하거나 통계적으로 유의하지 않으며, 오히려 현지 데이터가 충분히 확보될 경우 이점이 사라진다. 극히 낮은 자원 상황에서만 제한적인 개선이 관찰된다.
상세 분석
이 연구는 동아시아 사료 처리에 있어 “공통 문자 체계 = 자동 전이 가능”이라는 기존 가정을 정밀하게 검증한다. 먼저 저자들은 조선 시대 관료 기록(Hj R)과 학자 문학(Hj L) 등 한자 문서를 각각 413 k와 653 k 문장 규모로 수집하고, 고전 한문(WYWEB) 데이터를 1 M 문장 수준으로 추가하였다. 실험은 세 가지 NLP 과업—기계 번역(MT), 개체명 인식(NER), 구두점 복원(PR)—에 대해 Qwen‑2‑7B와 SikuRoBERTa‑a 모델을 파인튜닝한 뒤, 고전 한문 데이터를 포함했을 때와 제외했을 때의 성능 차이를 비교한다.
MT에서는 BLEU 점수가 최대 +0.84점 상승했지만, 부트스트랩 검정 결과 p < 0.05를 만족하지 않아 실질적 의미가 제한적이었다. NER와 PR에서는 F1 점수 차이가 ±0.0068 이하로 거의 변동이 없으며, 통계적 유의미성도 결여되었다. 특히, 한자 문서에 현지 데이터가 10 % 이상 추가되면 고전 한문 데이터의 효과는 급격히 감소한다는 점을 정량적으로 제시한다.
또한, 저자들은 문자 수준에서 한자·한문 간 변형(형태·의미·신조자) 분석을 수행했으며, 표면적 문자 유사성이 높음에도 불구하고 어순(SVO vs. SOV)과 어휘 선택 차이가 전이 효율을 저해한다는 언어학적 근거를 제공한다. 일본 관문(Kanbun) 실험에서도 동일한 경향이 재현돼, 지역별 고유 문법·표기 관습이 모델 전이의 주요 장애물임을 확인한다.
결과적으로, 고전 한문 자원을 무조건 활용하는 전략은 비용 대비 효과가 낮으며, 특히 현지 데이터가 충분히 확보된 경우에는 오히려 모델 복잡도만 증가시킨다. 저자들은 극히 저자원 상황에서만 제한적인 이점을 기대할 수 있음을 강조하고, 데이터 선택 시 문체·장르·시대적 일치성을 고려한 ‘도메인 맞춤형 전이’ 전략을 제안한다.
댓글 및 학술 토론
Loading comments...
의견 남기기