기계 번역에서 각도 분산을 통한 표현 붕괴 완화
초록
본 논문은 Transformer 기반 신경기계번역(NMT) 모델에서 발생하는 표현 붕괴 현상을 분석하고, 각도 분산(angular dispersion) 정규화를 적용해 이를 완화함과 동시에 번역 품질을 향상시키는 방법을 제시한다. 또한 양자화된 모델에서도 동일한 효과가 유지됨을 실험적으로 확인한다.
상세 분석
논문은 먼저 NMT에서 흔히 사용되는 다음 토큰 예측(next‑token prediction) 학습 방식이 내부 표현을 고차원 구면 위에 고르게 퍼뜨리지 못하고, 특히 깊은 디코더 층에서 완전 붕괴(complete collapse) 혹은 차원 붕괴(dimensional collapse) 현상을 초래한다는 점을 지적한다. 완전 붕괴는 모든 토큰 임베딩이 동일한 벡터로 수렴하는 최악의 상황이며, 차원 붕괴는 표현이 소수의 주축에만 집중돼 효율적인 공간 활용을 방해한다. 기존 연구에서는 대조학습(contrastive learning)이나 데이터 증강을 통해 다양성을 확보하려 했지만, 텍스트의 이산성 때문에 부정 샘플 선택이 어려워 실용성이 떨어진다.
이에 저자들은 구면 위의 방향성을 측정하는 ‘각도 분산’ 개념을 도입한다. 구면 S^d는 컴팩트하고 회전 불변성을 갖기 때문에, 벡터들의 방향을 균등하게 퍼뜨리는 것이 표현 붕괴 방지와 동등하게 해석될 수 있다. 구체적으로는 ‘sliced dispersion’ 정규화를 사용한다. 이는 모든 가능한 대원(great circle) 위에서 2차원 각도 배열을 슬라이스하고, 각 슬라이스에 대해 완전 분산(등각도)과의 거리 δ(·)를 최소화하는 기대값 R_sliced(Z)=E_{P,Q}
댓글 및 학술 토론
Loading comments...
의견 남기기