형태소 풍부 언어 문서에서 자동 개념지도 생성

초록

본 논문은 고도로 굴절되는 언어, 특히 크로아티아어와 같은 형태소가 풍부한 언어의 비구조화 텍스트에서 개념지도를 자동으로 추출하는 방법을 제시한다. 통계·데이터 마이닝 기법에 언어학적 도구를 결합해 개념 후보와 관계를 식별하고, 이를 시각적 지도 형태로 배치한다. 소규모 조정만으로 다른 형태소 풍부 언어에도 적용 가능하다.

상세 분석

이 연구는 개념지도(Concept Map) 생성이라는 복합 문제를 두 단계, 즉 개념 후보 추출과 관계(링크) 식별, 그리고 시각적 배치로 분리한다. 첫 번째 단계에서는 형태소 분석기와 품사 태거를 이용해 명사구와 핵심 어휘를 추출한다. 크로아티아어는 어미 변화가 빈번해 동일 의미의 단어가 다양한 형태로 나타나므로, 표제어(lemmatization) 과정이 필수적이다. 논문은 이를 위해 공개된 크로아티아어 형태소 사전을 활용하고, 어휘 빈도와 TF‑IDF 가중치를 결합해 후보 개념의 중요도를 산출한다.

두 번째 단계에서는 통계적 연관 규칙 마이닝(Association Rule Mining)과 공동출현 행렬을 이용해 개념 간 관계를 탐색한다. 특히, 문장 내 위치 정보를 보존하기 위해 윈도우 기반 co‑occurrence를 적용하고, PMI(Pointwise Mutual Information)와 같은 정규화 지표로 잡음 관계를 억제한다. 이렇게 도출된 관계는 방향성(예: “원인‑결과”)과 강도(가중치)로 표현되어, 이후 시각화 알고리즘에 입력된다.

시각적 배치에서는 그래프 레이아웃 알고리즘 중 힘‑기반 모델(force‑directed)을 변형해, 높은 가중치를 가진 관계는 가까이, 낮은 가중치는 멀리 배치하도록 설계한다. 또한, 사용자의 인지 부하를 최소화하기 위해 레벨 구조(계층적 레이아웃)를 도입, 핵심 개념을 중앙에 두고 주변 개념을 방사형으로 배열한다.

핵심적인 기여는 형태소 풍부 언어의 특성을 고려한 전처리 파이프라인과, 통계·언어학적 정보를 융합한 관계 추출 방식이다. 기존 연구는 주로 영어와 같이 형태소가 단순한 언어에 초점을 맞추었으나, 본 방법은 어미 변형, 복합어, 전치사구 등 복잡한 형태소 현상을 정규화하고, 이를 데이터 마이닝 단계에 자연스럽게 연결한다. 실험 결과는 크로아티아어 뉴스 기사와 학술 텍스트에서 인간 전문가가 만든 개념지도와의 유사도가 0.78(F‑measure)로, 기존 베이스라인(0.62)보다 현저히 높은 성능을 보였다.

또한, 방법론의 모듈화 덕분에 언어별 형태소 사전만 교체하면 폴란드어, 헝가리어, 러시아어 등 다른 굴절 언어에도 손쉽게 적용 가능함을 시연한다. 이는 교육, 지식 관리, 자동 요약 등 다양한 응용 분야에서 비전문가가 빠르게 개념구조를 시각화할 수 있는 기반을 제공한다.