나와틀 문법으로 인공 말뭉치 만들기
초록
본 논문은 멕시코 원주민 언어인 나와틀(Nahuatl)의 디지털 자원이 부족한 상황을 극복하기 위해 두 개의 컨텍스트 프리 그래머(CFG)를 설계하고, 이를 활용해 대규모 인공 문장을 생성한다. 생성된 문장은 비맥락 임베딩 학습에 사용되었으며, 기존 실제 말뭉치만을 이용한 경우보다 의미 유사도 평가에서 성능이 향상됨을 보인다.
상세 분석
이 연구는 ‘π‑언어’라 불리는 디지털 자원이 극히 제한된 언어에 대한 실용적인 해결책을 제시한다는 점에서 학술적·실용적 의의가 크다. 먼저 저자들은 나와틀의 문법적 특성을 정밀히 검토하고, VSO(동사‑주어‑목적어) 중심의 어순과 다형성(VO, VS, VOS 등) 등을 고려한 두 개의 마이크로‑CFG, µG NAW⊕0와 µG NAW⊕1을 설계하였다. µG NAW⊕0는 기존 연구에서 제시된 단순 형태로, 명사구(N)와 동사구(V)만을 포함하고, 인칭·시제·복수 등을 제한함으로써 생성 속도를 높였다. 반면 µG NAW⊕1은 보다 현실적인 구조를 반영해 인칭표시자(MV), 목적어표시자(MO), 장소표시자(ML) 등 다양한 마커를 도입하고, 부정(Neg), 형용사(ADJ), 양·시간·강도 마커(MCS, MT, MIV) 등을 포함한다. 두 문법 모두 재귀 규칙을 배제해 생성 가능한 문장 수를 통제하면서도, 조합 폭이 넓어 수십만에서 수백만 수준의 문장을 자동 생성할 수 있다.
생성 단계에서는 의미적 타당성을 확보하기 위해 두 차례 필터링을 적용한다. 첫 번째는 의미 필터로, ‘큰 옥수수 알갱이가 토끼를 먹는다’와 같이 문법은 맞지만 비현실적인 의미를 갖는 문장을 배제한다. 두 번째는 중복 감소를 위한 심볼 라벨링 기법으로, 동일 의미를 갖는 어휘 변형을 라벨로 대체한 뒤 확률적으로 실제 어휘를 매핑한다. 또한 문단 구분 태그를 삽입해 문서 수준의 구조를 부여함으로써, 단일 문장 집합이 아닌 실제 텍스트와 유사한 형태의 코퍼스를 만든다.
생성된 인공 코퍼스 π‑YALL‑IA는 기존 실제 코퍼스 π‑YALL‑I와 결합돼 임베딩 학습에 사용되었다. 실험에서는 단어·구 수준의 의미 유사도 태스크에서, 인공 코퍼스를 포함한 모델이 기존 모델보다 평균 정확도·F1 점수가 3~5% 상승했으며, 특히 경량 임베딩(Word2Vec, FastText)에서 대형 LLM(예: GPT‑3) 대비 더 높은 성능을 보였다. 이는 대규모 언어 모델이 충분한 훈련 데이터를 확보하기 어려운 π‑언어에 대해, 규칙 기반 생성이 비용 효율적인 대안이 될 수 있음을 실증한다.
한계점으로는 생성 문장의 의미 다양성이 여전히 제한적이며, 실제 사용자의 언어 습관을 완전히 반영하지 못한다는 점이다. 또한 재귀 규칙을 배제함으로써 복합 문장 구조를 충분히 모델링하지 못했으며, 향후 연구에서는 재귀적 CFG 혹은 확률적 문법을 도입해 더 풍부한 텍스트를 생성할 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기