언어다리 BhashaSetu: 초저자원 언어를 위한 그래프 기반 교차언어 전이
초록
본 논문은 고자원 언어의 풍부한 데이터와 사전학습 모델을 활용해, 수백 개 정도의 라벨만 가진 초저자원 언어에 대해 문장‑레벨·단어‑레벨 태스크를 효과적으로 수행하도록 설계된 세 가지 전이 기법을 제안한다. 기존의 은닉층 증강(HAL)과 토큰 임베딩 번역 전이(TET)에 더해, 그래프 신경망을 이용해 토큰 간 관계를 동적으로 공유하는 GETR(Graph‑Enhanced Token Representation) 모델을 도입하였다. 실험 결과, Mizo·Khasi와 같은 실제 초저자원 언어의 POS 태깅에서 13 %p, Marathi·Bangla·Malayalam의 감성 분류와 NER에서 각각 20 %p·27 %p 이상의 매크로‑F1 향상을 기록하였다.
상세 분석
본 연구는 초저자원 언어(라벨 수 100 ~ 500개)에서의 성능 한계를 극복하기 위해 세 가지 전이 전략을 체계적으로 설계하고 비교한다. 첫 번째 전략인 Hidden Augmentation Layers(HAL)는 고자원 언어와 저자원 언어의 CLS 표현을 가중합(α)하여 새로운 라벨‑소프트 벡터를 생성하고, KL‑다이버전스 손실을 적용함으로써 두 언어의 특성을 동시에 학습한다. α값을 0.10.4 사이로 조정하면 저자원 언어의 고유 특성을 유지하면서도 고자원 언어의 풍부한 정보를 보강할 수 있음을 실험적으로 확인하였다. 두 번째 전략인 Token Embedding Transfer through Translation(TET)은 사전 구축된 번역 사전을 활용해 저자원 언어 토큰을 고자원 언어 토큰에 매핑하고, 매핑된 고자원 임베딩의 평균을 저자원 토큰 초기값으로 사용한다. 이 과정은 단어‑레벨 번역이 가능한 경우에만 적용 가능하지만, 라벨이 극히 적은 상황에서도 임베딩 초기화를 통해 과적합을 크게 완화한다. 세 번째이자 핵심 기법인 GETR은 배치 단위로 토큰 그래프를 구성하고, GCN 또는 GAT 레이어를 통해 토큰 간 인접 정보를 집계한다. 토큰 그래프는 문장 내 순차적 연결을 기반으로 하며, 동일 토큰이 여러 문장에 등장할 경우 복수 노드가 생성되어 토큰 재사용을 허용한다. GNN 출력은 Transformer의 Q·K 행렬에 재활용되어, 기존 어텐션 메커니즘을 보존하면서도 교차언어 토큰 간의 동적 컨텍스트 공유를 가능하게 한다. 실험에서는 GNN 레이어를 23층 쌓을 경우 성능이 최적화되며, 깊이가 과도하면 그래프 전파 비용과 과적합 위험이 증가한다는 트레이드오프를 제시한다. 전반적인 결과는 GETR이 HAL·TET에 비해 평균 13 %p~27 %p 높은 매크로‑F1을 달성했으며, 특히 스크립트가 다른 Mizo·Khasi와 같은 실제 초저자원 언어에서도 의미 있는 개선을 보였다. 분석을 통해 성공적인 전이의 핵심 요인으로 (1) 고자원 언어와 저자원 언어 간의 토큰 수준 정렬 정확도, (2) 그래프 구조에서의 연속 토큰 연결성 보존, (3) α값과 GNN 깊이의 적절한 하이퍼파라미터 선택을 꼽는다. 또한, 번역 사전이 부재한 경우에는 수동 번역을 통해 TET를 보완할 수 있음을 제안한다.
댓글 및 학술 토론
Loading comments...
의견 남기기