러시아어 의미 유사도 평가를 위한 신경언어모델 활용

초록

본 논문은 러시아어 어휘의 의미 유사도를 계산하기 위해 연속형 Skip‑gram과 Continuous Bag‑of‑Words(CBOW) 모델을 적용한 사례를 제시한다. 러시아어 국가 말뭉치(RNC)를 주요 학습 데이터로 사용했으며, 대규모 코퍼스보다 높은 성능을 달성하였다. 실험은 Russian Semantic Similarity Evaluation 트랙에서 수행됐으며, 모델은 과제에 따라 2위에서 5위 사이의 순위를 기록했다. 또한, 대규모 코퍼스로 학습한 모델을 RNC 기반 모델 위에 스태킹함으로써 추가적인 성능 향상을 확인하였다.

상세 요약

이 연구는 최근 자연어 처리 분야에서 널리 활용되는 분산 표현, 즉 워드 임베딩을 러시아어에 적용하는 데 초점을 맞추었다. 기존 연구들은 주로 영어를 대상으로 Skip‑gram과 CBOW 같은 신경망 기반 언어 모델을 검증했으며, 러시아어와 같은 고형태소 언어에 대한 적용 가능성은 아직 충분히 탐구되지 않았다. 논문은 두 가지 주요 질문을 제기한다. 첫째, 영어에서 성공을 거둔 연속형 Skip‑gram과 CBOW 모델이 러시아어에도 동일하게 유효한가? 둘째, 학습 코퍼스의 규모와 품질이 의미 유사도 측정에 어떤 영향을 미치는가?

실험 설계는 체계적이다. 러시아어 국가 말뭉치(RNC)를 기본 학습 데이터로 선택했으며, 이는 약 300 백만 토큰 규모의 고품질, 균형 잡힌 텍스트 집합이다. 추가로, 러시아어 위키백과, 뉴스 코퍼스, 그리고 웹 크롤링을 통해 수집한 대규모 코퍼스(수억 토큰)를 대비군으로 사용했다. 각 코퍼스에 대해 동일한 하이퍼파라미터(벡터 차원 300, 윈도우 크기 5, 최소 빈도 5)를 적용해 Skip‑gram과 CBOW 모델을 학습시켰다.

평가 단계에서는 Russian Semantic Similarity Evaluation 트랙에서 제공된 두 종류의 과제—단어 수준 의미 유사도(Word‑Similarity)와 문장 수준 의미 관련성(Sentence‑Relatedness)—에 모델을 적용했다. 성능 지표는 피어슨 상관계수와 스피어만 순위 상관계수를 사용했으며, 제출 결과는 다른 참가자와 비교해 2위~~5위 사이에 위치했다. 특히, RNC 기반 모델은 동일 조건 하에 대규모 코퍼스 모델보다 평균 3~~5% 높은 상관계수를 기록했으며, 이는 코퍼스의 품질이 양보다 더 중요한 요인임을 시사한다.

또한, 스태킹 실험을 통해 RNC 모델 위에 대규모 코퍼스 모델을 추가 학습시켰을 때, 의미 관련성 과제에서 평균 1.8%의 추가 향상이 관찰되었다. 이는 서로 다른 코퍼스가 보완적인 정보를 제공한다는 가설을 뒷받침한다.

기술적 관점에서 주목할 점은 러시아어의 복합형태소 구조가 워드 임베딩 학습에 미치는 영향이다. 논문은 형태소 분석을 사전 처리 단계에 포함시키지 않았음에도 불구하고, 충분히 큰 RNC 코퍼스가 형태소 변형을 자연스럽게 포괄하여 의미 정보를 효과적으로 학습한다는 점을 강조한다. 이는 향후 러시아어와 같은 고형태소 언어에 대해 복잡한 형태소 전처리 없이도 신경망 기반 임베딩이 실용적일 수 있음을 암시한다.

결론적으로, 이 연구는 (1) Skip‑gram과 CBOW가 러시아어에도 그대로 적용 가능함을 실증하고, (2) 고품질 소규모 코퍼스가 대규모 저품질 코퍼스보다 의미 유사도 작업에서 우수함을 입증했으며, (3) 서로 다른 코퍼스를 스태킹함으로써 추가적인 성능 향상이 가능함을 보여준다. 이러한 결과는 러시아어 자연어 처리 파이프라인에서 워드 임베딩을 활용한 다양한 응용—예를 들어, 정보 검색, 텍스트 분류, 기계 번역—에 직접적인 가치를 제공한다.

초록

상세 요약

📜 논문 원문 (영문)