시각적 표현을 활용한 히브리어 모음 복원 혁신

시각적 표현을 활용한 히브리어 모음 복원 혁신
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 히브리어 단어를 이미지로 변환해 시각적 언어 모델(ViT)로 처리함으로써, 후보 형태들을 제시하고 문맥과 비교해 최적의 모음 형태를 선택하는 제로샷 분류 방식인 DiVRit 시스템을 제안한다. 후보 생성은 KNN 기반으로 수행되며, “oracle” 실험에서 92.68%의 정확도를 달성한다.

상세 분석

DiVRit은 기존의 문자‑레벨 디아크리티제이션 접근법과는 근본적으로 다른 패러다임을 제시한다. 먼저, 입력된 비모음(undotted) 히브리어 단어에 대해 K‑Nearest‑Neighbors(KNN) 알고리즘을 이용해 동일 길이와 형태학적 유사성을 가진 단어들을 검색하고, 각 단어에 대해 실제 텍스트 코퍼스에서 관찰된 모음 패턴을 추출한다. 이렇게 얻어진 후보 집합은 이미지 렌더링을 통해 픽셀‑단위 시각 데이터로 변환된다.

시각적 후보 인코더는 PIXEL‑base 모델을 기반으로 한 Vision Transformer(ViT‑MAE) 구조를 사용한다. 사전 학습 단계에서는 히브리어 위키피디아와 OSCAR 데이터셋을 활용해 2백만 스텝 동안 마스크드 이미지 모델링(MIM)으로 일반 텍스트 이미지의 표현을 학습한다. 이어서, 실제 디아크리티즈된 텍스트(약 3.4M 토큰)를 이용해 마스크 비율을 낮춘 추가 사전 학습을 수행함으로써, 모음 기호가 포함된 시각 패턴을 정교하게 포착하도록 모델을 미세조정한다.

문맥 인코더는 전통적인 토큰화 기반 트랜스포머(예: BERT) 혹은 시각적 컨텍스트를 동시에 처리할 수 있는 하이브리드 구조를 실험한다. 두 인코더가 각각 생성한 임베딩은 평균 풀링 후 동일 차원의 공유 공간으로 투영된다. 최종 점수는 문맥 임베딩과 각 후보 임베딩 간의 내적(dot product)으로 계산되며, 가장 높은 점수를 받은 후보가 선택된다.

핵심 혁신은 “시각적 디아크리티제이션”이라는 개념이다. 기존 방법들은 문자 수준에서 niqqud(모음 기호)를 별도의 라벨로 예측했지만, DiVRit은 모음이 포함된 전체 단어 형태를 이미지로 보고, 시각적 특징을 직접 학습한다. 이는 (1) 어휘 외 단어(OOV) 처리, (2) 문자 교체나 OCR 오류에 강인한 특성, (3) 모음이 문자와 결합된 복합 패턴을 자연스럽게 캡처한다는 장점을 제공한다.

실험 결과는 두 가지 설정을 제시한다. “Oracle” 설정에서는 정답 후보가 반드시 후보 집합에 포함된 경우 92.68%의 단어 정확도를 기록했으며, 이는 기존 최고 성능인 Nakdimon(89.75%)을 능가한다. 실제 후보 생성(KNN 기반)에서는 후보 집합 크기에 따라 정확도가 변동했으며, 최대 5개의 후보를 제공했을 때 87.87%의 정확도를 달성했다. 후보 집합이 작을수록 커버리지(정답이 포함될 확률)가 낮아지지만, 모델 자체의 선택 능력은 높은 수준을 유지한다는 점이 확인되었다.

또한, 다양한 아키텍처 변형(시각‑텍스트 혼합 인코더, 후보 임베딩 정규화, 대조 학습 손실 등)을 실험했으며, 특히 대조 학습(contrastive learning)과 후보 임베딩 정규화가 일반화 성능을 크게 향상시켰다. 한계점으로는 후보 생성 단계가 여전히 전통적인 문자열 유사도에 의존한다는 점과, 후보 집합이 충분히 포괄적이지 않을 경우 성능이 급격히 떨어진다는 점을 지적한다. 향후 연구에서는 후보 생성에 신경망 기반 생성 모델을 도입하거나, 멀티모달 사전 학습을 확대해 후보 다양성을 높이는 방안을 제시한다.

전반적으로 DiVRit은 시각적 표현을 활용한 제로샷 분류라는 새로운 프레임워크를 제시함으로써, 히브리어와 같은 모음이 생략된 스크립트의 디아크리티제이션 문제에 새로운 해결책을 제공한다. 이는 언어학적 규칙에 의존하지 않는 데이터‑드리븐 접근법이면서도, 시각적 정보가 제공하는 강인성을 활용한다는 점에서 향후 다국어 및 다스크립트 NLP 연구에 중요한 시사점을 제공한다.


댓글 및 학술 토론

Loading comments...

의견 남기기