언어 굴절 그래프 모델링과 그 구조적 특성
초록
이 논문은 라틴어와 폴란드어와 같은 교착어의 굴절 형태를 이중 그래프(머리말‑굴절형)로 표현하고, 머리말에 대한 투영 그래프가 보여주는 연결 컴포넌트(단어군)의 크기 분포가 임계점 근처의 격자 퍼콜레이션과 유사한 파워‑법칙을 따름을 확인한다. 또한 이러한 현상을 재현하는 두 단계 확률 모델을 제안한다.
상세 분석
본 연구는 먼저 사전의 원형(headword) 집합 H와 텍스트에서 관찰된 굴절형 집합 I를 정점으로 하는 이분 그래프 G = (H, I, E)를 구축한다. 각 원형 v∈H와 굴절형 u∈I 사이에 u가 v의 굴절형이면 간선 (v,u) 가 존재한다. 라틴어에 대해 구축된 Gₗₐ는 28 092개의 원형과 1 028 972개의 굴절형, 1 077 806개의 간선을 포함한다. 폴란드어 그래프 Gₚₗ도 유사한 규모를 가진다. 이 그래프를 원형 집합 H에 투영하면, 두 원형이 동일한 굴절형을 공유할 경우 간선이 추가되는 단순 그래프 G′가 된다. G′의 연결 컴포넌트를 “단어군”이라 정의하고, 각 군의 크기 s에 대해 군 수 nₛ가 nₛ ∝ s^{−τ} 를 만족함을 확인한다. 라틴어에서는 τ≈3.1, 폴란드어에서는 τ≈4.3으로, 이는 임계 퍼콜레이션에서 나타나는 Fisher 지수(τ≈2.5)와는 차이가 있지만, 전형적인 파워‑법칙 형태임을 보여준다.
그 다음, G′의 차수 분포와 코어‑클러스터링 스펙트럼을 분석한다. 차수 분포는 포아송이 아니라 지수적 감소를 보이며 평균 차수는 약 1.8이다. 코어 분석에서는 높은 차수 코어가 존재하고, 클러스터링 계수가 차수에 따라 크게 변동하는데, 이는 전형적인 Erdős‑Rényi 그래프가 임계점 근처에 보이는 단일 코어 구조와는 현저히 다르다.
이러한 특성을 재현하기 위해 저자는 두 단계 모델을 제안한다. 첫 단계에서는 각 원형에 대해 정규분포의 가중합 f_h (μ,σ) 을 이용해 연결될 굴절형 수 x_i를 샘플링하고, 이를 연속적인 인덱스로 I 집합에 할당해 “별(star)” 구조를 만든다. f_h는 세 개의 정규분포(동사, 명사·형용사, 기타)의 가중합으로, 파라미터 w_i, μ_i, σ_i 는 실제 라틴어 그래프의 차수 분포에 맞추어 추정되었다. 두 번째 단계에서는 별들 사이에 무작위 “다리”를 추가해 별들 간의 공유 굴절형을 만든다. 이 과정에서 간선 수와 연결 확률을 조절해 G′의 평균 차수와 클러스터링 스펙트럼을 실제 데이터와 일치시키도록 한다. 실험 결과, 생성된 인공 그래프는 원본 Gₗₐ와 유사한 파워‑법칙 군 크기 분포, 지수형 차수 분포, 그리고 다중 코어 구조를 보이며, 모델이 굴절 그래프의 핵심 토폴로지를 성공적으로 캡처함을 입증한다.
이 논문은 언어학적 굴절 현상을 복잡 네트워크 이론과 확률 그래프 모델링으로 연결시킴으로써, 교착어의 어휘 구조를 정량적으로 이해하고, 향후 자동화된 어휘 분석 및 텍스트 처리 시스템에 활용 가능한 이론적 기반을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기