상관분석과 PMI 기반 단어 임베딩 비교 연구
초록
본 논문은 전통적인 PMI 기반 정적 단어 임베딩 방법과 통계적 차원 축소 기법인 Correspondence Analysis(CA)의 수학적 연관성을 밝히고, CA에 제곱근 및 4제곱근 변환을 적용한 ROOT‑CA와 ROOTROOT‑CA 변형을 제안한다. 세 변형과 기존 PPMI‑SVD, GloVe, SGNS를 다양한 코퍼스와 단어 유사도 벤치마크에서 평가한 결과, ROOT‑CA와 ROOTROOT‑CA가 전반적으로 약간의 성능 향상을 보이며 BERT와도 경쟁 가능한 결과를 얻었다.
상세 분석
논문은 먼저 PMI 행렬이 단어‑컨텍스트 공분산을 가중치로 변환한 형태임을 재확인하고, 이를 기반으로 CA가 “표준화 잔차” 행렬에 대한 SVD를 수행한다는 점을 강조한다. CA의 목적함수는 가중치 p_i⁺ p_⁺j 로 스케일링된 (p_ij / p_i⁺p_⁺j − 1) 를 저차원 행렬로 근사하는 최소제곱 문제이며, 이는 가중치가 적용된 PMI 행렬의 저차원 근사와 수학적으로 동일하다. 이때 가중치가 큰 빈도수 셀에 상대적으로 낮은 영향력을 부여함으로써 극단값(특히 매우 높은 공동출현 빈도)으로 인한 왜곡을 완화한다.
제안된 변형 ROOT‑CA와 ROOTROOT‑CA는 각각 원본 카운트 행렬 X에 대해 √X, √√X 변환을 수행한 뒤 CA를 적용한다. 제곱근 변환은 포아송 분포를 가정한 카운트 데이터의 분산을 안정화시키는 Bartlett 변환과 동일한 효과를 가지며, 4제곱근 변환은 과분산(overdispersion) 문제를 완화한다는 생태학적 선행 연구를 차용한다. 이러한 전처리는 표준화 잔차 행렬의 스케일을 조정해 SVD 단계에서 특잇값이 과도하게 큰 셀에 의해 지배되는 현상을 억제한다.
실험에서는 세 개의 대규모 코퍼스(위키백과, 뉴스, 웹 크롤링 데이터)를 사용해 100‑300 차원의 임베딩을 학습하고, WordSim‑353, SimLex‑999, MEN, RareWord 등 네 개의 단어 유사도 데이터셋에서 코사인 유사도 기반 평가를 수행한다. 결과는 ROOT‑CA와 ROOTROOT‑CA가 기존 PPMI‑SVD, GloVe, SGNS에 비해 평균 1‑2%p(percentage point) 정도 높은 상관계수를 기록했으며, 특히 희소하고 저빈도 단어에 대한 성능이 눈에 띄게 개선되었다. BERT의 정적 토큰 임베딩과 비교했을 때는 전반적인 점수에서 약간 뒤처지지만, 계산 비용과 메모리 요구량 측면에서 훨씬 효율적이다.
또한, 논문은 CA와 T‑Test 가중치 스키마가 본질적으로 동일한 행렬 분해 형태임을 보이며, 이를 통해 기존 텍스트 분류·정보 검색 연구에서 CA가 LSA보다 우수하다는 경험적 결과와 연결한다. 마지막으로 PMI‑GSVD라는 직접적인 가중치 PMI 행렬 분해 방법을 제안했지만, 실험에서는 변환 기반 CA가 더 안정적인 성능을 보였다. 전반적으로 이 연구는 통계적 차원 축소 기법을 NLP에 적용할 때 데이터 전처리(제곱근·4제곱근 변환)의 중요성을 강조하고, 전통적인 정적 임베딩과 최신 컨텍스트 모델 사이의 성능 격차를 좁히는 실용적 대안을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기