유대아라비아어 전사와 후처리: 히브리 문자에서 아랍 문자로의 자동 변환
초록
본 논문은 유대아라비아어(히브리 문자)를 아랍 문자로 자동 전사하기 위한 두 단계 접근법을 제안한다. 첫 단계는 기존 학계 표준에 기반한 문자‑대‑문자 매핑이며, 두 번째 단계는 사전 훈련된 아랍어 문법 오류 교정 모델을 활용한 후처리이다. 또한 대형 언어 모델(LLM)의 전사 성능을 최초로 벤치마크하고, 점(dot) 유무에 따른 전사 정확도 차이를 분석한다. 최종적으로 전사된 텍스트가 형태통사 분석 및 기계 번역 파이프라인에 적용 가능함을 실험을 통해 입증한다.
상세 분석
이 연구는 유대아라비아어(JA)를 아랍어 스크립트로 변환하는 작업을 “문자‑레벨 매핑 → 후보정”이라는 두 단계 파이프라인으로 설계하였다. 첫 단계에서는 Blau(1961)와 Lanza(2020)의 기존 매핑 표를 그대로 구현했으며, 히브리 문자에 존재하는 상단 점(upper‑dot) 표기도 보존한다. 상단 점은 아랍어에 존재하지 않는 음소를 표시하기 위해 히브리어에 도입된 부호로, 텍스트마다 일관성을 보이지만 표준화되지 않아 매핑 오류의 주요 원인이다. 연구팀은 점이 포함된(dotted) 버전과 점이 제거된(dotless) 버전을 각각 전사해 정확도 차이를 정량화했으며, 점이 포함된 경우 64.9%의 정확도를 기록해 점이 의미를 갖는다는 결론을 도출했다.
두 번째 단계인 후처리는 최신 아랍어 문법 오류 교정(GEC) 시스템을 그대로 적용한다. 이는 기존 연구가 제시한 제한된 규칙 기반 교정보다 범용성을 확보하며, 어휘·형태소 수준의 오류를 동시에 정정한다. 후처리 적용 후 전사 정확도는 평균 8~10%p 상승했으며, 특히 상단 점이 잘못 매핑된 경우와 하마자(hamza) 누락 오류가 크게 감소했다.
평가에서는 문자‑레벨 정확도, 문자 오류율(Levenshtein 기반), 그리고 F1 점수를 모두 보고하였다. 또한, 사전 훈련된 LLM(예: GPT‑4, Claude)에 동일한 입력을 제공해 zero‑shot 전사 성능을 측정했으며, LLM은 기본 매핑보다 낮은 52% 수준을 보였지만, 프롬프트 엔지니어링을 통해 약간의 향상이 가능함을 확인했다.
데이터 측면에서는 Sefaria에서 제공된 알‑카자리(Al‑Khazari) 원문과 현대 아랍어 번역본을 정렬하였다. 섹션 단위 정렬 후 단어‑레벨 정렬을 수행하고, 히브리어 인용구와 구두점은 평가에서 제외하였다. 최종 데이터셋은 325개 단락, 1,286문장, 46,529단어(그 중 9.8%가 JA)로 구성된다.
후속 실험에서는 전사된 텍스트에 아랍어 형태통사 분석기(MorphTagger)와 NMT 모델을 적용했다. 전사 전 텍스트는 형태소 분석이 거의 불가능했으나, 전사 후에는 92% 이상의 태깅 정확도와 BLEU 27.4점(기존 번역본 대비 5.2점 상승)을 달성했다. 이는 전사가 아랍어 NLP 파이프라인에 직접 연결될 수 있음을 실증한다.
마지막으로, 기존 연구와의 비교를 통해 본 접근법이 (1) 전체 파이프라인이 공개되고 재현 가능하며, (2) 별도 JA 데이터 학습 없이도 높은 성능을 유지하고, (3) 점 표기의 의미를 체계적으로 검증한다는 점에서 차별성을 가진다. 한계점으로는 히브리어 차용어의 번역·전사 구분이 아직 완전하지 않으며, 다중 텍스트에 대한 점 표기의 변이성을 더 폭넓게 조사할 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기