다양한 터키어계 언어 번역을 위한 맞춤형 시스템 구축
초록
본 논문은 러시아어‑바시키르, 러시아어‑카자흐, 러시아어‑키르기스, 영어‑타타르, 영어‑추바시 5개 저자원 터키어계 언어쌍에 대해 데이터 증강, LoRA 기반 파인튜닝, 그리고 유사 문장 검색을 활용한 프롬프트 기법을 비교한다. 합성 데이터와 LoRA 어댑터를 이용한 NLLB‑200‑distilled‑600M 파인튜닝은 카자흐어(chrF++ 49.71)와 바시키르어(46.94)에서 최고 성능을 보였으며, 유사 문장 검색과 DeepSeek‑V3.2 프롬프트는 추바시어(39.47)에서 가장 큰 향상을 제공한다. 타타르는 제로샷과 검색 기반 접근법이 41.6, 키르기스는 제로샷이 45.6 점을 기록했다. 데이터와 모델 가중치는 공개한다.
상세 분석
이 연구는 저자원 터키어계 언어 번역에 대한 실용적인 솔루션을 제시한다는 점에서 의미가 크다. 첫 번째로, 원본 병렬 코퍼스가 극히 제한적인 상황에서 저자들은 Yandex.Translate API를 활용해 대규모 합성 데이터를 생성하고, 이를 기존 데이터와 결합해 총 2,457,344개의 샘플을 확보하였다. 특히 러시아어‑타타르, 영어‑카자흐, 영어‑키르기스 등 다양한 언어쌍에 대해 양방향 번역을 수행함으로써 데이터 다양성을 높였으며, 테스트 셋에 포함된 문장을 필터링해 데이터 누수 위험을 최소화했다.
두 번째로, NLLB‑200‑distilled‑600M 모델에 LoRA 어댑터(DORA)를 적용한 다중언어 파인튜닝 전략을 채택했다. 전체 언어에 대해 1 epoch을 사전 학습한 뒤, 각 언어별 LoRA 어댑터를 추가 학습함으로써 다중언어 간 지식 전이가 발생함을 실험적으로 확인했다. 표 1의 결과에서 볼 수 있듯이, 다중언어 사전 학습 후 LoRA를 적용한 경우(예: 카자흐어 49.93, 바시키르어 49.53)는 단일언어 파인튜닝(카자흐어 44.70, 바시키르어 22.32)보다 현저히 높은 chrF++ 점수를 얻었다. 이는 언어 간 구조적·어휘적 유사성이 높은 터키어계 언어군에서 파라미터 효율적인 적응이 가능함을 시사한다.
세 번째로, 추바시어와 타타르어에 대해서는 대규모 언어 모델을 활용한 프롬프트 기반 접근을 시도했다. ANNOY 인덱스를 구축해 입력 문장과 가장 유사한 소스‑타깃 쌍을 7,000개까지 검색하고, 이를 프롬프트에 삽입해 DeepSeek‑V3.2, DeepSeek‑R1, Gemma‑3, MiMo‑V2 등 여러 모델에 전달하였다. 특히 추바시어는 NLLB 파인튜닝이 사전 학습에 포함되지 않아 성능이 저조했으나, 유사 문장 검색을 통한 프롬프트는 chrF++ 39.47이라는 실질적인 개선을 가져왔다. 반면, 키르기스어는 제로샷 성능이 이미 45.6점대로 높아 프롬프트 방식이 크게 이득을 주지 못했으며, 오히려 컨텍스트 윈도우를 확대하면 성능이 감소하는 현상이 관찰되었다.
마지막으로, 여러 모델·전략의 결과를 라벨스페이스(LaBSE) 기반 코사인 유사도로 재정렬해 스태킹을 시도했지만, 검증 점수는 소폭 악화되었다. 이는 저자원이면서도 언어마다 최적의 접근법이 다름을 보여준다. 전반적으로 데이터 증강·LoRA 파인튜닝이 비교적 자원이 풍부한 바시키르·카자흐어에 효과적이며, 데이터가 극히 부족한 추바시어에는 검색 기반 프롬프트가 유용함을 실증한다. 또한, 모델 선택·하이퍼파라미터 튜닝, 컨텍스트 길이 조절 등이 성능에 미치는 영향을 정량적으로 분석함으로써 향후 저자원 MT 연구에 실용적인 가이드라인을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기