터키어와 히브리어 동사 패러다임 토크나이제이션 효과 분석
초록
본 연구는 트랜스포머 기반 언어 모델이 터키어와 현대 히브리어의 복잡한 동사 패러다임을 어떻게 인코딩하는지 조사한다. Blackbird Language Matrices(BLM) 과제를 활용해, 원자형 토크나이제이션, 서브워드, 문자 수준 토크나이제이션이 모델 성능에 미치는 영향을 비교한다. 터키어는 투명한 접사 체계 덕분에 단일어와 다국어 모델 모두 토크나이제이션 방식에 크게 구애받지 않고 높은 정확도를 보인다. 반면 히브리어는 비연결형(템플릿) 형태소 구조 때문에, 문자 수준 토크나이제이션을 사용한 다국어 모델은 성능이 크게 떨어지고, 형태소 인식을 고려한 단일어 모델만이 좋은 결과를 얻는다. 합성 데이터에서는 모든 모델이 향상되지만, 토크나이제이션 선택이 실제 언어 데이터에서의 성능 격차를 결정한다는 점을 강조한다.
상세 분석
이 논문은 형태소 복합성을 가진 두 언어, 터키어와 현대 히브리어를 대상으로 토크나이제이션 전략이 트랜스포머 모델의 내부 표현에 미치는 영향을 정량적으로 평가한다. 먼저, Blackbird Language Matrices(BLM)라는 패러다임 기반 다중 선택 과제를 도입한다. BLM은 문맥 집합과 정답 후보군으로 구성되며, 모델은 문장 임베딩을 통해 정답을 예측한다. 이를 위해 터키어와 히브리어 각각의 UD 트리뱅크에서 동사 형태(활성, 수동, 사역, 사역‑수동)를 추출해 8,000개 인스턴스를 구성하고, 90:10 비율로 학습·테스트 셋을 나눈다.
모델은 세 종류를 사용한다. (1) 터키어 전용 BERTurk, (2) 히브리어 전용 AlephBERT, (3) 다국어 Electra 기반 모델이다. 각 모델은 사전 정의된 토크나이저를 사용해 토큰 수와 토큰 유형을 분석한다. 결과적으로, 단일어 모델은 각각 평균 1.33(히브리어)·1.86(터키어) 토큰으로 비교적 원자에 가깝게 토크나이즈한다. 반면 다국어 Electra는 히브리어에 대해 평균 5.14 토큰(문자 수준)으로 과도하게 분할된다. 이는 다국어 모델의 어휘가 라틴 스크립트에 편중돼 히브리어 문자마다 별도 토큰을 할당하기 때문이다.
성능 측면에서, 터키어에서는 모든 모델이 높은 F1 점수를 기록한다. 이는 터키어가 접사 기반의 투명한 형태소 체계를 가지고 있어, 서브워드 토크나이저가 어근과 접사를 충분히 구분하거나 결합해도 의미 손실이 적기 때문이다. 특히, 사역‑수동 형태처럼 복합 접사가 여러 개일 때도 모델은 이를 적절히 학습한다.
히브리어에서는 상황이 크게 다르다. 다국어 모델은 문자 수준 토큰화로 인해 어근(KTB)과 템플릿(예: 히필, 누팔) 사이의 비연결형 관계를 파악하지 못해, 사역·수동 형태를 구분하는 데 큰 오류를 보인다. 반면, AlephBERT는 형태소 인식을 고려한 토크나이저(어근+템플릿을 별도 토큰)로, 비연결형 패턴을 유지하면서도 어근‑접두사 관계를 학습한다. 결과적으로 히브리어에서는 단일어 모델이 다국어 모델보다 평균 15~20% 높은 F1 점수를 기록한다.
합성 데이터(인위적으로 생성된 규칙 기반 문장)에서는 모든 모델이 토크나이제이션에 관계없이 성능이 상승한다. 이는 데이터가 규칙성을 강조하고 노이즈가 적어, 모델이 형태소 규칙을 더 쉽게 추론하기 때문이다. 그러나 실제 코퍼스에서는 토크나이제이션 선택이 모델의 일반화 능력에 결정적인 영향을 미친다.
이 논문은 토크나이제이션이 언어별 형태소 특성에 맞춰 설계되어야 함을 실증한다. 특히 비연결형(템플릿) 언어에서는 어근‑패턴을 하나의 토큰으로 묶는 형태소‑인식 토크나이저가 필수적이며, 다국어 모델을 그대로 적용할 경우 성능 저하가 불가피함을 보여준다. 향후 연구에서는 토크나이저를 동적으로 조정하거나, 형태소 정보를 사전 학습 단계에 통합하는 방법을 모색할 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기