벵골어 문장 자동 의미 분류와 베냉리 워드넷 활용

벵골어 문장 자동 의미 분류와 베냉리 워드넷 활용
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 베냉리 워드넷에 정의된 의미 정보를 이용해, ‘māthā(머리)’라는 다의어가 포함된 1,747개의 벵골어 문장을 나이브 베이즈 분류기로 자동 분류하고, 84%의 정확도를 달성한 연구이다. 형태소 복잡성, 정규화, 불용어 제거 등 전처리 과정을 상세히 다루며, 오류 원인을 분석한다.

상세 분석

이 연구는 벵골어와 같은 형태소가 풍부한 인도계 언어에서 의미 구분, 즉 Word Sense Disambiguation(WSD)을 구현하기 위한 실용적인 프레임워크를 제시한다. 먼저 TDIL 프로젝트에서 구축된 85개 분야의 대규모 코퍼스(총 271,102문장)에서 ‘māthā’라는 레마 형태가 등장하는 1,747개의 문장을 추출한다. 이때 원문은 다양한 폰트, 구두점, 비정형 공백 등을 포함하고 있어, 수작업 정규화 단계에서 문자 인코딩 통일, 구두점 분리, 문장 종결자 식별 등을 수행한다.

다음으로 불용어(stop word) 제거가 핵심 전처리로 다루어진다. 벵골어는 조사, 접속사, 감탄사, 대명사, 일부 형용·부사가 빈번히 등장하므로, 빈도 기반 자동 필터링이 한계가 있어, 연구진은 표준 벵골어 사전을 활용해 수동으로 불용어 리스트를 구축하였다. 이는 특징 공간을 축소하고, 나이브 베이즈 모델의 조건부 확률 추정에 있어 잡음을 최소화한다.

학습 단계에서는 ‘māthā’의 세 가지 주요 의미(예: 신체 부위, 비유적 의미, 지리적 명칭 등)를 각각 대표하는 학습 셋을 구성한다. 각 의미별로 베냉리 워드넷에서 제공하는 gloss(정의), 예문, 동의어 집합을 활용해 특징 벡터를 생성하고, 이를 토큰 빈도 기반의 다항 나이브 베이즈 모델에 입력한다. 베이즈 정리는 P(클래스|문맥) ∝ P(클래스)·∏P(단어|클래스) 형태로, 사전 확률은 각 의미의 문장 비율로 설정하였다.

실험 결과, 전체 1,747문장 중 84%가 올바른 의미로 분류되었으며, 오분류된 16%는 주로 구문 구조가 비정형이거나 의미 단서가 부족한 경우에 집중되었다. 특히, 복합 어미와 격 변형이 풍부한 벵골어 동사 형태가 문맥 정보를 희석시켜 오류를 유발했다. 또한, 워드넷에 수록된 정의가 짧고 추상적일 경우, 모델이 충분한 특징을 학습하지 못해 성능 저하가 나타났다.

이 연구는 형태소 분석기와 더 정교한 특징 추출(예: 의존 구문 트리, 어간-접미사 분리) 도입 시 성능 향상이 가능함을 시사한다. 또한, 베냉리 워드넷의 커버리지를 확대하고, 의미별 코퍼스 라벨링을 자동화하면 지도학습 기반 WSD 시스템 구축에 큰 도움이 될 것이다. 마지막으로, 본 접근법은 텍스트 분류, 정보 추출, 기계 번역 전처리 등 다양한 NLP 파이프라인에 적용 가능함을 강조한다.


댓글 및 학술 토론

Loading comments...

의견 남기기