언어 유형이 대형 번역 모델 성능에 미치는 영향 분석
초록
본 논문은 최신 다국어 번역 모델인 NLLB‑200(인코더‑디코더)과 Tower+(디코더‑전용) 2종을 212개 언어에 대해 평가하고, 목표 언어의 형태·구문적 특성이 번역 품질에 미치는 영향을 정량적으로 규명한다. 데이터 규모와 스크립트 차이를 통제한 뒤에도 특정 유형‑특성이 성능 차이를 설명함을 확인했으며, 특히 형태 복잡도가 높은 언어나 자유 어순을 가진 언어는 넓은 빔 탐색(beam size 확대)에서 더 큰 이득을 얻는다. 연구 결과를 바탕으로 FLORES+ 평가 벤치마크에 대한 세밀한 유형 특성 데이터셋을 공개한다.
상세 분석
본 연구는 두 가지 최신 다국어 번역 모델, NLLB‑200(3.3 B 파라미터, 인코더‑디코더 구조)과 Tower+ (9 B 파라미터, 디코더‑전용 LLM) 를 대상으로, FLORES+ 벤치마크에 포함된 212개 언어 중 124개의 목표 언어에 대해 영어→목표 언어 번역을 수행하였다. 모델이 사전 학습 단계에서 사용한 정확한 데이터 비중을 알 수 없으므로, CommonCrawl 기반의 언어 규모를 ‘리소스 정도’의 대리 변수로 활용하였다. 또한 URIEL 데이터베이스에서 제공하는 유전·지리·구문·음운·전체 거리와 스크립트 동일 여부를 포함한 6가지 거리 지표와, 형태 복잡성을 나타내는 8가지 연속형 지표(정보량, 단어·레마 엔트로피, 패러다임 평균 크기, 굴절 합성도, 형태 특징 엔트로피, 굴절 정확도, TTR 계열) 를 수집했다.
통계 분석에서는 다중 회귀와 혼합 효과 모델을 적용해, 리소스 정도와 스크립트 동일성 등 전통적 요인을 먼저 통제한 뒤, 각 유형 특성이 chrF++ 점수에 미치는 순수 효과를 추정했다. 결과는 두 모델 모두 목표 언어의 형태 복잡성(특히 ‘Morphological Feature Entropy’와 ‘Inflection Accuracy’)과 어순 유연성(‘Word Order Flexibility’)이 번역 품질에 유의미한 부정적 영향을 미친다는 점을 보여준다. 즉, 형태가 복잡하고 어순이 자유로운 언어일수록 동일한 모델·데이터 조건에서도 낮은 chrF++ 점수를 기록한다.
디코딩 측면에서는 빔 크기(k = 1, 3, 5, 7) 별 성능 변화를 분석했다. 대부분의 언어에서 빔 크기 3~5가 최적이었지만, 형태 복잡도가 높은 언어나 자유 어순 언어는 빔 크기 7에서도 여전히 점수 상승을 보였다. 이는 이러한 언어가 더 넓은 탐색 공간을 필요로 함을 시사한다. 반면, 스크립트가 동일하고 형태가 단순한 언어는 작은 빔에서도 충분히 높은 품질을 달성한다.
Tower+ 모델은 NLLB‑200에 비해 전반적인 성능 차이가 적었으며, 유형 특성에 대한 민감도가 일부 감소했다. 그러나 ‘Morphological Feature Entropy’와 ‘Word Order Flexibility’가 여전히 유의미한 변수로 남아, 디코더‑전용 LLM도 언어 구조에 따라 번역 난이도가 달라짐을 확인했다.
연구는 또한 FLORES+에 포함된 212개 언어에 대한 연속형 유형 특성 데이터를 공개함으로써, 향후 다국어 MT 연구에서 보다 정교한 언어‑특화 디코딩 전략을 설계할 수 있는 기반을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기