시냅스 싱할라 관용구 병렬 데이터셋
초록
본 논문은 2,344개의 싱할라 관용구와 그 문화·언어적 메타데이터를 포함한 SinFoS 데이터셋을 공개한다. 관용구 유형 구분, 문자·시각 이미지, 영어 대응 표현, 실제 의미 등을 주석으로 달았으며, 두 종류의 관용구를 구분하는 이진 분류 모델을 92% 정확도로 구축하였다. 또한 기존 대형 언어 모델(LLM)의 번역 성능을 평가했을 때 문화적 뉘앙스를 놓치는 등 한계가 드러났다. 이 데이터셋은 저자원 언어와 문화‑인식 기계번역 연구의 벤치마크로 활용될 수 있다.
상세 분석
SinFoS 데이터셋은 싱할라어라는 저자원 언어의 관용구(FoS)를 체계적으로 정리한 최초의 병렬 코퍼스로, 2,344개의 고유 표현을 다섯 가지 유형(속담, 관용구, 격언, 특수형, 격언)으로 분류하고, 각 항목에 ‘문자·시각 이미지’, ‘영어 대응 관용구’, ‘실제 의미(What it really implies)’, ‘추가 맥락’ 등을 부착하였다. 데이터 수집은 전통적인 문헌(‘Department of Official Languages’, ‘Dictionary of Proverbs of the Sinhalese’ 등)과 위키피디아를 65:35 비율로 혼합했으며, 전 과정이 원어민 주석자에 의해 수행돼 신뢰도가 높다. 특히 ‘문자·시각 이미지’ 필드는 추상적 의미를 배제하고 구체적 이미지만을 기술함으로써, 모델이 문자 수준에서 의미를 추론하도록 설계된 점이 독창적이다.
주요 기술적 기여는 세 가지로 요약된다. 첫째, 관용구 유형을 이진 분류(예: 관용구 vs. 속담)하는 모델을 구축했으며, BERT 기반 아키텍처로 92%의 정확도를 달성했다. 이는 유형 구분이 번역 파이프라인에서 사전 처리 단계로 활용될 수 있음을 시사한다. 둘째, 기존 LLM(GPT‑4, LLaMA 등)의 싱할라→영어 번역을 평가한 결과, 문화적 함의를 정확히 전달하지 못하고 직역에 머무는 경우가 빈번했다. 특히 은유·비유적 표현에서 의미 손실이 두드러졌으며, 이는 현재 LLM이 저자원 언어의 문화적 컨텍스트를 학습하기 위한 추가 데이터가 필요함을 의미한다. 셋째, 데이터셋 자체가 다중 레이블(유형, 이미지, 의미, 맥락) 구조를 갖추고 있어, 관용구 인식, 의미 정규화, 문화적 전이 학습 등 다양한 NLP 태스크에 활용 가능하다.
한계점으로는 영어 대응 표현이 일부 항목에만 존재해(전체 66%) 교차 언어 정렬이 완전하지 않으며, ‘What it really implies’ 필드가 주관적 해석에 의존할 가능성이 있다. 또한 데이터 규모가 수천 건 수준에 머물러 대규모 사전학습에는 부족할 수 있다. 향후 작업에서는 더 많은 언어쌍(예: 싱할라‑중국어, 싱할라‑아랍어)으로 확장하고, 다중 모달(음성·이미지) 주석을 추가해 문화적 뉘앙스를 풍부히 포착하는 것이 바람직하다.
댓글 및 학술 토론
Loading comments...
의견 남기기