신할라어 미지 단어 품사 태깅 향상 연구

본 논문은 신할라어에서 사전에 존재하지 않는 미지 단어를 처리하기 위해, 개방형·폐쇄형 어휘 구분과 언어 고유의 구문 규칙을 결합한 품사 태깅 기법을 제안한다. 실험 결과, 제안 방법이 기존 태거에 비해 미지 단어를 포함한 문장의 태깅 정확도를 현저히 향상시킴을 확인하였다.

신할라어 미지 단어 품사 태깅 향상 연구

초록

본 논문은 신할라어에서 사전에 존재하지 않는 미지 단어를 처리하기 위해, 개방형·폐쇄형 어휘 구분과 언어 고유의 구문 규칙을 결합한 품사 태깅 기법을 제안한다. 실험 결과, 제안 방법이 기존 태거에 비해 미지 단어를 포함한 문장의 태깅 정확도를 현저히 향상시킴을 확인하였다.

상세 요약

이 연구는 자연어 처리(NLP)에서 가장 기본적이면서도 난이도가 높은 과제 중 하나인 품사(POS) 태깅의 ‘미지 단어’ 문제에 초점을 맞추었다. 신할라어는 어휘가 풍부하고 형태소 변형이 복잡한 언어로, 기존의 사전 기반 태거는 새로운 도메인이나 최신 용어가 등장할 때 급격히 성능이 저하된다. 논문은 이러한 한계를 극복하기 위해 두 가지 핵심 아이디어를 도입한다. 첫째, 어휘를 ‘개방형(open class)’과 ‘폐쇄형(closed class)’으로 구분한다. 개방형은 명사, 동사, 형용사 등 새로운 어휘가 지속적으로 추가되는 품사를 의미하고, 폐쇄형은 전치사, 접속사, 조사 등 비교적 고정된 어휘군을 말한다. 둘째, 신할라어 고유의 구문 규칙—예를 들어, 동사 뒤에 오는 목적어의 형태, 조사와 명사의 결합 패턴, 어순에 따른 품사 추론 등을 활용한다. 이러한 규칙은 미지 단어가 등장했을 때, 주변 토큰들의 품사와 문법적 위치를 기반으로 후보 품사를 제한한다.

실험 설계는 두 단계로 이루어진다. 첫 번째 단계에서는 기존 사전 기반 태거와 비교하기 위해, 사전에서 임의로 일정 비율(10%, 20%)의 어휘를 제거하여 ‘인위적 미지 단어’를 만든다. 두 번째 단계에서는 실제 신할라어 뉴스 기사와 소셜 미디어 코퍼스를 사용해 자연스럽게 발생하는 미지 단어를 대상으로 평가한다. 평가 지표는 전체 정확도, 미지 단어 정확도, 그리고 F1-score를 포함한다. 결과는 미지 단어 정확도에서 기존 시스템이 45% 수준에 머물렀던 반면, 제안 방법은 68%까지 끌어올렸으며, 전체 정확도 역시 2~3%p 상승하였다. 이는 구문 규칙이 미지 단어의 품사 후보를 효과적으로 좁혀 주었고, 개방형·폐쇄형 구분이 불확실성을 감소시켰음을 의미한다.

또한 논문은 오류 분석을 통해 남은 한계점을 제시한다. 복합어와 외래어, 특히 영어 차용어가 신할라어에 섞여 들어올 경우, 기존 규칙만으로는 정확한 품사 추정이 어려웠다. 향후 연구에서는 형태소 분석기와 딥러닝 기반 컨텍스트 임베딩을 결합해 이러한 사례를 보완할 계획이다. 전반적으로 이 연구는 언어별 특화된 구문 지식을 활용함으로써, 사전 의존도가 높은 전통적 POS 태깅 시스템의 약점을 보완하고, 특히 리소스가 제한된 언어에서 실용적인 해결책을 제시한다는 점에서 의의가 크다.


📜 논문 원문 (영문)

🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...