실제 통사 의존 트리에서 관측되는 교차 횟수가 매우 적은 현상은 의존 거리 최소화 압력의 부수 효과일 것이라는 가설이 제기되어 왔다. 본 연구는 이와 연관된 핵심 질문에 답한다: *문장의 자연 어순이 사라지고 완전 무작위 어순으로 대체된다면, 기대되는 교차 횟수는 얼마가 될까?* 연구 결과, 기대 교차 횟수는 오직 트리의 정점 수(문장 길이)와 정점 차수의 제곱 평균(0에 대한 두 번째 모멘트)에만 의존한다는 것을 밝혀냈다. 별형 트리(star tree)에서는 교차가 전혀 발생하지 않아 기대값이 최소이며, 선형 트리(linear tree)에서는 기대 교차 횟수가 문장 길이의 제곱에 비례하는 수준으로 최대에 달한다.
### 1. 연구 배경 및 목적
- **배경**: 통사 의존 트리에서 단어 간 연결선이 서로 교차하는 경우는 실제 언어 데이터에서 매우 드물다. 기존 연구는 이를 ‘의존 거리 최소화(Dependency Length Minimization, DLM)’라는 인지·생산 효율 원리의 부수 현상으로 설명했다.
- **목적**: DLM과는 별개로, **완전 무작위 어순** 하에서 교차가 얼마나 발생할지를 이론적으로 규정함으로써, 실제 언어가 얼마나 ‘교차 억제’를 최적화하고 있는지를 정량화하고자 한다.
실제 구문 의존 트리(syntactic dependency tree)에서 관측되는 교차(crossing)의 수가 비교적 적은 현상은, **의존 길이 최소화(Dependency Length Minimization, DLM)** 라는 전반적인 압력(pressure)으로 인한 부수적 효과(side‑effect)일 것이라는 가설이 오랫동안 제기되어 왔습니다. 즉, 문장 안의 단어들이 서로 의존 관계를 맺을 때 그 거리(길이)를 가능한 한 짧게 유지하려는 언어 사용자의 경향이, 결과적으로 트리 구조 내에서 서로 다른 의존선들이 겹쳐지는 경우, 즉 교차가 발생하는 경우를 최소화하게 만든다는 논리적 추론이 이 가설의 핵심입니다. 이러한 관점에서 보면, 교차가 거의 없거나 전혀 없는 구조는 의존 길이 최소화 압력이 강하게 작용한 결과라고 볼 수 있습니다.
본 연구에서는 이와 연관된 또 다른 중요한 연구 질문에 답하고자 합니다. 구체적으로는 “문장의 자연스러운 어순(natural order)이 완전히 사라지고, 그 자리를 완전한 무작위 순서(random ordering)로 대체했을 때, 기대되는 교차의 수는 얼마가 될 것인가?” 라는 질문을 제기합니다. 여기서 말하는 ‘자연스러운 어순’이란 인간 언어 사용자가 일반적으로 선택하는 의미적·통사적 규칙에 따라 배열된 단어들의 순서를 의미하며, 이를 무작위로 섞는다는 것은 모든 가능한 순열(permutation) 중에서 동등한 확률로 하나를 선택한다는 가정을 포함합니다. 따라서 이 질문은 실제 언어 현상에서 관찰되는 제한된 교차 현상이, 순서가 무작위일 경우 얼마나 크게 증가할 수 있는지를 정량적으로 평가하려는 시도라고 할 수 있습니다.
우리의 분석 결과는 교차의 기대값(expected number of crossings) 이 두 가지 핵심 변수에만 의존한다는 점을 보여줍니다. 첫 번째 변수는 의존 트리의 정점(vertex) 수, 즉 문장의 길이(sentence length)와 동일합니다. 두 번째 변수는 정점 차수(vertex degree)의 제로에 대한 두 번째 모멘트(second moment about zero) 로, 이는 각 정점이 가지고 있는 연결(에지) 수의 제곱값을 평균한 것과 같은 통계적 척도입니다. 수식적으로는 (M_2 = \frac{1}{n}\sum_{i=1}^{n}k_i^2) (여기서 (n)은 정점 수, (k_i)는 i번째 정점의 차수) 로 표현되며, 이 값이 클수록 트리 구조가 보다 불균형하게(특정 정점에 연결이 집중되는 형태) 분포되어 있음을 의미합니다. 따라서 교차의 기대값은 정점 수와 차수 제곱 평균 이라는 두 개의 파라미터만을 통해 완전히 결정되며, 다른 복잡한 트리의 형태적 특성이나 문법적 제약은 별도로 고려되지 않음이 특징입니다.
특히, 이러한 기대값은 트리의 형태에 따라 극단적인 값을 취합니다. 별형 트리(star tree) 와 같이 모든 정점이 하나의 중심 정점에만 연결되는 구조에서는, 어떠한 무작위 순열을 적용하더라도 두 의존선이 서로 교차할 여지가 전혀 없기 때문에 기대되는 교차 수는 최소값, 즉 0 으로 수렴합니다. 반면에 선형 트리(linear tree) 와 같이 정점들이 일렬로 연결된 형태에서는, 무작위 순열에 의해 발생할 수 있는 교차의 가능성이 최대가 됩니다. 이 경우 기대 교차 수는 문장 길이 (n) 의 제곱에 비례하는 차수, 즉 (O(n^2)) 수준으로 성장합니다. 구체적으로는, 모든 가능한 순열을 평균했을 때 발생하는 교차 쌍의 수가 (\frac{n(n-1)}{4}) 정도가 되며, 이는 순서가 완전히 무작위일 경우 교차 현상이 얼마나 빈번하게 나타날 수 있는지를 정량적으로 보여줍니다.
요약하면, 실제 언어에서 관찰되는 교차 현상의 희소성은 단순히 트리의 크기나 정점의 평균 차수와는 무관하게, 의존 길이 최소화라는 보편적인 언어적 압력 에 의해 억제되는 부수적 현상이라는 가설을 뒷받침합니다. 동시에, 만약 그 압력이 사라지고 문장의 어순이 완전한 무작위 상태가 된다면, 교차의 기대값은 트리의 정점 수와 차수 제곱 평균이라는 두 가지 통계량에 의해 결정되며, 가장 극단적인 경우(선형 트리)에는 문장 길이의 제곱에 비례하는 매우 큰 값으로 증가할 것임을 확인할 수 있습니다. 이러한 결과는 구문 의존 구조의 통계적 특성을 이해하고, 언어 처리 모델이 실제 인간 언어의 제약을 어떻게 모방해야 하는지에 대한 중요한 이론적 근거를 제공한다는 점에서 의미가 큽니다.
이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다.