로망스어 간 상호 이해도 측정: 계산적 접근
초록
본 논문은 프랑스어, 이탈리아어, 포르투갈어, 스페인어, 루마니아어 다섯 주요 로망스어 사이의 상호 이해도를 새로운 계산적 지표로 정량화한다. 어휘 표면·음성 유사도와 의미적 유사도를 결합한 메트릭을 제시하고, 두 개의 병렬 코퍼스와 다중 임베딩 모델을 활용해 실험하였다. 결과는 기존 인간 실험(클로즈 테스트)과 높은 상관관계를 보이며, 언어 간 비대칭성을 정량적으로 드러낸다.
상세 분석
이 연구는 로망스어군 내 상호 이해도를 정량화하기 위해 ‘표면·음성·의미 3중 유사도’라는 새로운 메트릭을 설계했다. 첫 번째 단계는 RoBoCoP 데이터베이스에서 추출한 19,222개의 인지트(최소 2개 언어에 존재)와 46,490개의 차용어 쌍을 활용해 어휘적 겹침 정도를 측정한다. 표면 유사도는 정규화된 레벤슈타인 거리로 계산되며, 정규화 과정에서 악센트 제거와 스테밍을 적용해 orthographic 형태와 eSpeak‑NG를 이용한 phonemic 전사 두 가지 버전을 동시에 평가한다. 이때 0~1 구간의 점수가 높은 경우 두 언어 간 형태가 거의 동일함을 의미한다.
의미 유사도는 FastText 기반 다국어 정적 임베딩을 사용한다. 사전 학습된 위키피디아 코퍼스에서 추출된 300차원 벡터를 각 단어에 매핑하고, 코사인 유사도로 의미적 거리를 산출한다. 임베딩 공간이 사전 정렬(aligned)되어 있기 때문에 서로 다른 언어의 단어 벡터를 직접 비교할 수 있다. 의미가 크게 변이된 ‘거짓 동의어’(semantic false friends)와 같은 현상은 낮은 코사인 점수로 반영된다.
이 두 점수를 가중 평균하여 최종 intelligibility score를 도출한다. 가중치는 실험적 튜닝을 통해 결정했으며, 표면 유사도가 높은 경우 의미 유사도가 다소 낮아도 전체 점수가 크게 감소하지 않도록 설계했다. 또한, 두 개의 병렬 코퍼스(RomCro와 EuroParl)를 활용해 실제 사용 빈도와 문맥적 동시 출현 횟수를 보정함으로써, 단순히 어휘 목록에만 의존하는 기존 연구의 한계를 보완한다.
통계적 검증 단계에서는 인간 참여자에게 동일한 어휘 집합에 대해 클로즈 테스트를 수행하도록 하고, 얻어진 인간 점수와 계산된 점수 사이의 피어슨 상관계수를 산출했다. 결과는 0.78 이상의 높은 상관관계를 보였으며, 특히 프랑스어‑스페인어, 이탈리아어‑포르투갈어 쌍에서 비대칭성이 두드러졌다. 비대칭성은 한 언어 사용자가 다른 언어를 이해하는 정도와 그 반대 경우가 크게 차이 나는 현상으로, 표면·음성·의미 3요소가 서로 다른 비중으로 작용함을 시사한다.
이 논문의 주요 기여는 (1) 대규모 인지트·차용어 데이터베이스와 실제 병렬 코퍼스를 결합한 어휘‑문맥 기반 측정 프레임워크, (2) 형태·음성·의미 3중 유사도를 통합한 새로운 intelligibility metric, (3) 인간 실험과의 높은 상관성을 입증함으로써 계산적 접근이 실제 언어 이해도 평가에 유효함을 증명한 점이다. 향후 연구에서는 형태론·통사론 수준의 특징을 추가하고, 비언어적 요인(노출, 태도 등)을 모델에 통합함으로써 더욱 정교한 다차원 이해도 평가 체계를 구축할 수 있을 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기