사전 기반 터키어 개념 마이닝: 새로운 접근법

초록

본 연구는 WordNet 대신 전통 사전을 활용하여 터키어 문서에서 의미 있는 개념을 추출하는 방법을 제안한다. 사전 항목에 포함된 동의어·상위어·하위어 정보를 이용해 개념 후보를 생성하고, 형태소 분석을 통해 교착어 특성을 보정한다. 다양한 코퍼스에 적용한 결과, 기존 방법에 비해 높은 정확도를 달성했으며, 터키어와 같은 교착어에 사전 기반 접근이 유효함을 입증한다.

상세 분석

터키어는 어미가 풍부하게 결합되는 교착어(agglutinative language) 특성상 형태소 분석이 개념 추출의 핵심 난관이다. 기존 영어 중심의 개념 마이닝 연구는 WordNet과 같은 시놉스 기반 어휘망을 활용해 동의어·상위어·하위어 관계를 구조화했지만, 터키어에서는 WordNet이 충분히 구축되지 않아 적용이 제한적이었다. 본 논문은 이러한 한계를 극복하기 위해 전통 사전(entry) 자체를 의미 네트워크로 활용한다는 혁신적인 아이디어를 제시한다. 사전 정의문에는 자연스럽게 동의어, 상위어, 하위어가 내포되어 있어, 이를 텍스트 마이닝 기법으로 추출하면 의미 관계 그래프를 손쉽게 구성할 수 있다.

구현 단계는 크게 네 부분으로 나뉜다. 첫째, 문서 전처리 단계에서 토큰화와 정규화를 수행하고, 터키어 특유의 어미를 분리하기 위해 형태소 분석기(Morphological Analyzer)를 적용한다. 둘째, 사전 데이터베이스를 구축하고, 각 항목의 정의문을 파싱해 의미 관계(동의어, 상위어, 하위어)를 추출한다. 셋째, 문서 내 토큰과 사전 항목을 매핑하여 개념 후보를 생성한다. 여기서 어미가 결합된 형태소가 사전 원형과 매치되지 않을 경우, 어미 제거 및 어간 복원 규칙을 적용해 매칭률을 높인다. 넷째, 후보 개념에 대해 빈도·문맥·연관성 점수를 계산하고, 임계값 기반 필터링을 통해 최종 개념 집합을 도출한다.

실험에서는 뉴스, 학술, 소셜 미디어 등 서로 다른 도메인의 코퍼스를 사용했으며, 평가 지표로는 정밀도, 재현율, F1-score를 채택했다. 사전 기반 방법은 WordNet 기반 베이스라인에 비해 정밀도 12%, 재현율 9% 포인트 상승을 보였고, 특히 복합 어미가 많이 사용된 문장에서는 매칭 성공률이 크게 개선되었다. 또한, 사전 자체가 지속적으로 업데이트될 수 있다는 점에서 확장성 및 유지보수 측면에서도 장점이 있다.

하지만 몇 가지 한계도 존재한다. 사전 정의문의 품질에 따라 의미 관계 추출 정확도가 좌우되며, 최신 신조어나 전문 용어는 사전에 반영되지 않아 누락될 위험이 있다. 또한, 어미 변형 규칙을 완전하게 커버하기 위해서는 방대한 언어학적 규칙 집합이 필요하고, 이는 시스템 복잡성을 증가시킨다. 향후 연구에서는 자동화된 사전 확장 기법과 딥러닝 기반 문맥 임베딩을 결합해 사전 의존성을 최소화하고, 다중 언어 간 개념 정렬을 시도할 계획이다.