마코프 과정으로 보는 단어·그래프·다양체 임베딩과 거리 복원
초록
이 논문은 단어 임베딩을 심리측정학의 의미 공간에 연결하고, 공변량 행렬을 이용한 마코프 랜덤워크에서 얻은 동시출현 횟수를 로그 변환하면 원래 의미 거리(제곱 유클리드 거리)와 선형 관계가 있음을 보인다. 이를 바탕으로 GloVe·word2vec·SVD 등을 일관된 거리 복원 프레임워크로 통합하고, 부정이항 회귀 기반 새로운 알고리즘을 제안한다. 또한 같은 원리를 그래프와 매니폴드에 확장해, 랜덤워크의 전이 확률 로그가 Varadhan 공식에 의해 지오데식 거리와 연결됨을 증명한다. 실험에서는 아날로지, 시퀀스 완성, 분류 등 언어 과제와 비선형 차원 축소 과제에서 제안 방법과 기존 방법을 비교한다.
상세 분석
본 연구는 임베딩을 “거리 복원(metric recovery)” 문제로 재정의함으로써 기존의 경험적 성공을 이론적으로 정당화한다. 먼저, 단어를 고차원 의미 공간에 배치하고 인접 단어쌍의 동시출현을 마코프 랜덤워크의 전이 확률로 모델링한다. Lemma 1에 따르면, 충분히 큰 코퍼스에서 동시출현 횟수 Cᵢⱼ의 로그는 ‑‖xᵢ−xⱼ‖²/σ²와 상수항의 합으로 수렴한다. 이는 GloVe, word2vec, SVD가 모두 ‑‖xᵢ−xⱼ‖² 형태의 손실을 최소화하도록 설계될 수 있음을 의미한다. 특히 GloVe의 가중치 함수 f(Cᵢⱼ)와 부정이항 회귀의 과산포 파라미터 θ는 큰 Cᵢⱼ에 대한 억제 효과를 동일하게 제공한다는 점을 수식적으로 연결한다.
새로운 회귀 모델은 Cᵢⱼ∼NegBin(θ, exp(−‖xᵢ−xⱼ‖²/2+αᵢ+βⱼ)) 로 가정하고, 로그우도에 대한 그라디언트를 직접 계산해 스토캐스틱 경사 하강법으로 최적화한다. 이 방법은 기존의 부정 샘플링 근사보다 안정적이며, 실험에서 일관된 성능 향상을 보인다.
그래프와 매니폴드에 대한 확장은 두 단계로 이루어진다. 첫째, 공간 그래프 Gₙ을 정의하고, 정규화된 스케일 σₙ(x)와 커널 h에 따라 전이 확률 pᵢⱼ를 설정한다. 대규모 n→∞ 한계에서, 단순 랜덤워크는 스키르코프-바라돈 수렴을 통해 연속적인 이토 과정 Yₜ에 대응한다. 둘째, Varadhan의 대편차 공식에 의해 t→0 일 때 −t log P(Yₜ=xⱼ|Y₀=xᵢ) → ρ²(xᵢ,xⱼ) 가 성립한다. 이를 그래프 전이 확률에 적용하면, 동시출현 로그가 매니폴드의 제곱 지오데식 거리와 직접 연결됨을 증명한다. 따라서 임베딩을 통해 복원된 거리 행렬은 원본 매니폴드의 기하학을 정확히 반영한다.
실험에서는 Word2Vec, GloVe, SVD, 제안된 부정이항 회귀(NB‑Reg) 네 가지 방법을 아날로지, 시퀀스 완성, 분류 세 가지 언어 과제와, 스위스 롤러코스터 데이터와 MNIST‑manifold 같은 비선형 차원 축소 과제에 적용했다. NB‑Reg은 특히 시퀀스 완성과 매니폴드 복원에서 가장 낮은 평균 오류를 기록했으며, 기존 방법들은 대체로 아날로지 정확도에서 경쟁력을 보였지만 매니폴드 거리 복원에서는 성능이 떨어졌다.
전체적으로 이 논문은 임베딩을 확률적 마코프 과정과 거리 복원이라는 통일된 수학적 프레임워크로 묶음으로써, 기존 방법들의 한계와 가능성을 명확히 드러내고, 그래프·매니폴드 학습에 새로운 이론적 기반을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기