다국어 언어 모델의 효과적인 어휘 확장 방법

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 기존 다국어 사전학습 모델(mPLM)이 지원하지 않던 초저자원 언어를 위해 어휘를 확장하고, 이 어휘를 이중언어 사전과 교차‑언어 서브워드 임베딩을 이용해 초기화한 뒤 지속 학습을 수행한다. 실험 결과, POS 태깅과 NER에서 각각 0.54%와 2.60%의 성능 향상을 보였으며, 원본 언어(영어) 성능은 유지되고 학습 데이터 선택에 대한 강인성도 확인하였다.

상세 분석

이 연구는 다국어 사전학습 모델이 지원하지 않는 초저자원 언어를 대상으로 어휘 확장과 초기화 전략을 체계화한 점에서 의미가 크다. 기존 연구들은 주로 기존 어휘를 그대로 두고 추가 데이터를 통해 지속 학습하거나, 새 어휘를 무작위 초기화하는 방식을 사용했으며, 이는 어휘 레이어가 전체 파라미터의 절반 이상을 차지하는 mBERT와 같은 모델에서 수렴 속도와 최종 성능에 부정적 영향을 미친다. 저자는 먼저 고자원 언어(주로 영어)와 겹치는 어휘 집합 V_s 를 선별함으로써, 소스 언어를 대표하는 서브셋만을 활용한다. 이는 전체 어휘를 정렬하는 데 드는 계산 비용을 크게 절감한다는 실용적 장점이 있다.

다음 단계에서는 대규모 단일언어 코퍼스를 이용해 소스와 타깃 언어 각각의 정적 워드 임베딩 W_s, W_t 를 학습하고, 이중언어 사전(Dictionary) 기반으로 정교한 정규 직교 변환(orthogonal mapping)을 적용한다. 여기서 이소모픽성 가정을 완화한 최신 정렬 기법을 도입함으로써, 언어 간 구조적 차이가 큰 초저자원 언어에서도 의미 있는 매핑을 확보한다.

서브워드 임베딩은 fastText 방식과 유사하게 n‑gram 기반 가중 평균으로 계산한다. 이는 OOV(Out‑Of‑Vocabulary) 문제를 완화하고, 서브워드 수준에서의 의미적 유사성을 보존한다. 이후 소스와 타깃 언어의 서브워드·워드 임베딩을 결합한 행렬 U_s, U_t 를 이용해 코사인 유사도 행렬 S 를 구축하고, 각 타깃 서브워드에 대해 상위 k개의 가장 유사한 소스 서브워드를 선택해 가중 평균을 수행한다. 이 과정은 기존 무작위 초기화 대비 의미론적 일관성을 크게 높이며, 초기 파라미터가 이미 학습된 소스 언어의 지식을 효과적으로 전이한다.

마지막으로, 초기화된 어휘 임베딩을 포함한 모델을 타깃 언어 코퍼스로 지속 학습한다. 실험에서는 XLM‑R 기반 모델에 대해 POS 태깅과 NER 작업을 수행했으며, 무작위 초기화 대비 각각 0.54%와 2.60%의 절대 성능 향상을 기록했다. 특히 NER에서 큰 폭의 개선이 나타난 것은 어휘 수준에서의 정확한 초기화가 엔티티 경계와 라벨 예측에 직접적인 영향을 미친 것으로 해석된다. 또한, 다양한 코퍼스(크기·도메인) 선택 실험에서 성능 변동이 미미해, 제안 방법이 데이터 선택에 강인함을 보여준다.

전체적인 기여는 (1) 어휘 확장 시 소스 언어 어휘를 선별적으로 활용해 계산 효율성을 확보한 점, (2) 이중언어 사전과 교차‑언어 서브워드 임베딩을 결합해 의미론적 초기화를 구현한 점, (3) 이러한 초기화가 실제 다운스트림 작업에서 일관된 성능 향상을 가져왔으며, 원본 언어 성능을 손상시키지 않았다는 실증적 증거를 제공한 점이다. 향후 연구에서는 다중 소스 언어를 동시에 활용하거나, 어휘 확장 규모와 k값에 대한 최적화 탐색을 통해 더욱 다양한 초저자원 언어에 적용 가능성을 검증할 여지가 있다.

다국어 언어 모델의 효과적인 어휘 확장 방법

초록

상세 분석

댓글 및 학술 토론

의견 남기기