벵골어 명사 명사 복합어 식별을 위한 머신러닝 접근법
초록
본 논문은 벵골어 텍스트에서 명사-명사 형태의 복합어(MWE)를 자동으로 식별하기 위해 두 단계의 파이프라인을 제안한다. 첫 단계에서는 청크 정보와 휴리스틱 규칙을 활용해 후보를 추출하고, 두 번째 단계에서는 랜덤 포레스트 분류기를 이용해 후보를 실제 복합어인지 여부로 판별한다. 연관도 측정값, 구문·언어학적 단서, WordNet 기반 의미 유사도 등 다양한 특징을 결합함으로써 높은 정확도를 달성하였다.
상세 분석
이 연구는 벵골어와 같이 형태소 분석이 어려운 언어에서 다중단어표현(MWE) 식별 문제를 머신러닝으로 해결하려는 시도이다. 먼저 후보 추출 단계에서는 기존 청크 파서가 제공하는 명사구(NP) 정보를 활용하고, ‘명사‑명사’ 패턴, 빈도 임계값, 전후 어휘 제한 등 여러 휴리스틱 규칙을 적용해 후보 빅그램을 선별한다. 이러한 전처리 과정은 후보 집합을 크게 축소시켜 이후 분류기의 학습 효율을 높이는 동시에 잡음 감소 효과를 가져온다.
분류 단계에서는 랜덤 포레스트(Random Forest)를 선택했는데, 이는 다수의 결정 트리를 앙상블하여 과적합을 방지하고 다양한 특징의 상호작용을 자연스럽게 모델링할 수 있기 때문이다. 특징 설계는 크게 세 축으로 구성된다. 첫째, 통계적 연관도 측정값(PMI, t‑score, log‑likelihood 등)을 통해 두 명사의 결합 강도를 정량화한다. 둘째, 구문적·언어학적 단서(청크 레이블, 품사 패턴, 위치 정보, 접두·접미사 존재 여부 등)를 포함해 후보가 문법적으로 자연스러운 복합어인지 판단한다. 셋째, 벵골어 WordNet을 이용한 의미 유사도 특징을 도입해 의미적 일관성을 평가한다. 특히, 두 명사가 동일한 의미 영역에 속하거나 상위·하위 관계에 있을 경우 높은 점수를 부여함으로써 의미 기반 오류를 감소시켰다.
실험에서는 자체 구축한 벵골어 코퍼스(약 1백만 토큰)와 전문가가 라벨링한 금형 데이터를 사용해 10‑fold 교차 검증을 수행했다. 주요 평가지표는 정확도, 정밀도, 재현율, F1‑score이며, 제안 시스템은 전체적으로 86% 이상의 F1‑score를 기록했다. 특히, 의미 유사도 특징을 제외했을 경우 F1‑score가 약 4% 감소하는 등, 각 특징군이 상호 보완적으로 작용함을 확인할 수 있었다. 오류 분석 결과는 주로 희귀 명사 조합, 다의어 의미 충돌, 그리고 청크 파서의 오류에 기인한 것으로 나타났다.
본 논문의 주요 공헌은 (1) 벵골어 명사‑명사 복합어 식별을 위한 체계적인 후보 추출 규칙 집합, (2) 통계·구문·의미 정보를 통합한 다중 특징 프레임워크, (3) 랜덤 포레스트 기반 분류기의 효과적인 적용을 통해 기존 규칙 기반 접근법 대비 높은 성능을 달성한 점이다. 또한, WordNet 기반 의미 특징을 MWE 식별에 도입한 최초 사례 중 하나로 평가될 수 있다. 향후 연구에서는 더 큰 규모의 코퍼스와 딥러닝 기반 임베딩을 결합해 희귀 복합어 인식 능력을 강화하고, 다중 언어 간 전이 학습을 통해 다른 인도계 언어에도 적용 가능성을 탐색할 계획이다.
댓글 및 학술 토론
Loading comments...
의견 남기기