다중언어 LLM, 철자와 의미 연결에 겪는 어려움
초록
이 논문은 영어‑스페인어, 영어‑프랑스어, 영어‑독일어 쌍에서 인지언어학적 현상인 동형이의어와 동형동의어를 이용해 다국어 대형 언어 모델(LLM)의 어휘 처리 능력을 평가한다. 모델은 고립된 단어와 문맥이 제공된 문장에서 의미를 구분하는 과제를 수행했으며, 동형동의어(형태는 같지만 의미가 다른 단어)에서는 무작위 이하의 성능을 보이며, 형태적 유사성에 과도히 의존한다는 결론을 도출한다.
상세 분석
본 연구는 인간의 이중언어 어휘 접근 메커니즘을 모방한 실험 설계로, 인지심리학에서 제시된 BIA+ 모델과 연계해 LLM의 내부 표현을 탐색한다. 세 가지 언어쌍(EN‑ES, EN‑FR, EN‑DE)에서 동형동의어(cognates), 비동형동의어(non‑cognates), 그리고 형태는 동일하지만 의미가 다른 interlingual homographs를 각각 1,000여 개씩 선정하였다. 실험은 (1) 고립된 단어 의미 회수(task A), (2) 의미가 얽힌 동형동의어 구분(task B), (3) 의미적 제약이 있는 문맥 속에서 동형동의어를 올바르게 해석하는 과제(task C)로 구성되었다. 다섯 개의 공개 멀티링구얼 LLM(예: mBERT, XLM‑R, LLaMA‑2‑13B‑multilingual 등)을 zero‑shot 및 few‑shot 설정에서 평가했으며, 정확도, F1 점수, 그리고 무작위 베이스라인 대비 차이를 주요 지표로 삼았다. 결과는 다음과 같다. 첫 번째 과제에서는 대부분의 모델이 cognates와 non‑cognates를 85 % 이상 정확도로 구분했지만, homographs에 대해서는 45 % 이하, 심지어 30 % 미만의 성능을 보이며 무작위(≈33 %)보다도 낮은 경우가 있었다. 두 번째 과제에서도 동일한 경향이 지속되었으며, 특히 영어가 아닌 언어의 homograph에 대해 모델이 영어 의미를 과잉 일반화하는 현상이 두드러졌다. 세 번째 과제에서는 문맥이 강하게 제약될수록 성능이 약간 회복되었지만, 여전히 60 % 이하에 머물렀다. 흥미롭게도, task A에서 높은 점수를 받은 모델이 task C에서도 우수한 성능을 보이는 상관관계는 거의 없었으며, 이는 형태적 패턴 학습과 의미적 이해가 별개의 메커니즘으로 작동함을 시사한다. 또한, 모델별로 영어 homograph에 대해서는 “most‑likely English meaning” 전략을, 비영어 homograph에 대해서는 “most‑frequent across‑language token” 전략을 적용하는 차이가 관찰되었다. 이러한 결과는 현재의 멀티링구얼 LLM이 어휘 수준에서 공유 어휘(shared vocabulary)를 정렬점으로 활용하지만, 의미적 정교함은 부족함을 보여준다. 논문은 향후 모델 설계 시 어휘‑의미 정렬을 강화하고, 언어별 의미 네트워크를 별도로 학습시키는 방안을 제안한다.
댓글 및 학술 토론
Loading comments...
의견 남기기