단어와 구문을 위한 효율적 분산 표현 및 합성성 향상
초록
본 논문은 연속 Skip‑gram 모델을 기반으로, 빈도 높은 단어의 서브샘플링, 부정 샘플링(Negative Sampling)이라는 새로운 손실 함수, 그리고 데이터‑드리븐 방식의 구문(phrase) 탐지를 도입해 학습 속도를 크게 높이고 벡터 품질을 개선한다. 실험 결과, 제안 기법들은 기존 계층적 Softmax 대비 어휘·구문 유추 테스트에서 높은 정확도를 보이며, 벡터 간 선형 연산을 통한 의미 조합 가능성을 확인한다.
상세 분석
Skip‑gram 모델은 중심 단어 wₜ 를 주었을 때 주변 단어 wₜ₊ⱼ 를 예측하도록 학습함으로써, 각 단어를 고차원 실수 벡터 v(w) 로 매핑한다. 원 논문에서는 이 기본 구조에 네 가지 주요 개선점을 제시한다. 첫째, 빈도 높은 단어의 서브샘플링을 도입한다. 단어 wᵢ 의 등장 빈도 f(wᵢ) 에 따라 확률 P(wᵢ)=1−√(t/f(wᵢ)) (여기서 t≈10⁻⁵) 로 무작위 삭제함으로써, 학습 데이터에서 ‘the’, ‘of’ 등 의미 정보가 적은 토큰을 크게 감소시킨다. 이는 학습 횟수를 2~10배 가량 단축시키고, 희소 단어의 표현을 더 정교하게 만든다.
둘째, 계층적 Softmax를 대체하는 **부정 샘플링(Negative Sampling)**을 제안한다. 기존 계층적 Softmax는 Huffman 트리를 이용해 log |V| 의 복잡도로 확률을 계산하지만, 트리 구조에 의존하는 비용과 메모리 오버헤드가 존재한다. 부정 샘플링은 목표 단어 w_O 와 k 개의 노이즈 단어 w_i 를 구분하도록 로지스틱 회귀 손실 log σ(v′w_O·v_w_I)+∑{i=1}^k E_{w_i∼P_n}
댓글 및 학술 토론
Loading comments...
의견 남기기