시각적 접근으로 고대 로고그래픽 언어 NLP 혁신
초록
LogogramNLP는 고대 로고그래픽 문자(Linear A, 이집트 상형문자, 설형문자, 대나무 문자)를 이미지와 전사 텍스트 두 형태로 제공하는 최초의 벤치마크이다. 시각 인코더(ViT‑MAE, PIXEL 등)와 전통 텍스트 인코더(ByT5, mBERT 등)를 동일 과제(분류, 번역, 의존 구문 분석)에 적용해 비교했으며, 일부 과제에서 시각 모델이 텍스트 모델을 앞섰다. 이는 시각 파이프라인이 고대 문자 데이터의 대규모 이미지 자원을 바로 활용할 수 있음을 시사한다.
상세 분석
본 논문은 고대 로고그래픽 언어가 가진 고유의 데이터·표현 문제를 두 축으로 정리한다. 첫째, 대부분의 고대 문서는 사진·필경본 형태의 이미지로만 존재하고, 전사 작업은 전문가의 손이 많이 가는 고비용 프로세스이다. 둘째, 전사된 텍스트라도 유니코드 매핑이 불완전하거나, 기존 고대 언어와 현대 고자원 언어 간 문자 집합이 겹치지 않아 다국어 사전학습 모델(mBERT, XLM‑R 등)의 전이 효율이 저하된다. 이러한 배경에서 저자들은 “시각적 직접 처리”라는 대안을 제시한다.
데이터 구축 단계에서는 네 개의 고대 언어 각각에 대해 (① 원시 사진, ② 라인아트, ③ 유니코드 전사, ④ 라틴 알파벳 전사) 네 가지 표현을 수집·정제하였다. 특히 Linear A와 대나무 문자처럼 유니코드가 전부 매핑되지 않은 경우, 이미지 자체를 모델 입력으로 사용하도록 설계했다. 이미지 전처리 방식은 (1) 원시 이미지 그대로, (2) 이미지 몽타주(글리프를 가로로 배열), (3) 디지털 렌더링(가능한 경우) 등 세 가지 전략을 적용했다.
모델링 측면에서는 텍스트 기반 접근과 시각 기반 접근을 명확히 구분한다. 텍스트 기반은 (① 어휘 확장 방식, ② 라틴 전사 이용, ③ 토큰‑프리 바이트 기반(ByT5, CANINE))으로 구성했으며, 각각 기존 다국어 사전학습 모델에 새로운 토큰을 추가하거나 라틴 알파벳을 중간 매개체로 활용한다. 시각 기반은 (① 픽셀 인코더(PIXEL, PIXEL‑MT), ② Vision Transformer 기반 MAE, ③ 전체 문서 이미지 인코더(ResNet‑50))를 사용해 이미지 자체를 직접 임베딩한다.
실험은 세 가지 다운스트림 과제(속성 분류, 기계 번역, 의존 구문 분석)에서 수행되었다. 결과는 흥미롭게도 (1) 기계 번역에서는 PIXEL‑MT가 텍스트 기반 mBERT‑based 번역 모델보다 BLEU 점수에서 우위를 차지했고, (2) 일부 속성 분류 과제에서도 시각 모델이 정확도·F1 점수에서 텍스트 모델을 앞섰다. 반면 의존 구문 분석에서는 전통 텍스트 모델이 여전히 강세를 보였는데, 이는 구문 구조 정보가 이미지에서 직접 추출되기보다 토큰 수준의 레이블링이 더 효율적이기 때문으로 해석된다.
또한, “전사‑후‑전이” 파이프라인(이미지를 먼저 OCR·전사하고 그 결과를 텍스트 모델에 입력)과 비교했을 때, 직접 시각 모델을 적용하는 것이 오류 전파를 최소화하고 전체 파이프라인의 복잡성을 크게 낮춘다는 점을 확인했다. 이는 고대 문서 디지털화 단계에서 OCR 정확도가 낮은 상황에서도 유용하게 작동한다는 의미다.
논문의 한계로는 (① 현재는 네 개 언어에 국한돼 있어 일반화 가능성을 추가 검증이 필요하고, ② 시각 모델이 대규모 사전학습 데이터(일반 웹 이미지)와 얼마나 잘 맞물리는지에 대한 정량적 분석이 부족함, ③ 이미지 품질(손상, 조명 등) 변동에 대한 강건성 평가가 제한적) 등을 들 수 있다. 향후 연구에서는 더 다양한 고대 스크립트와 고해상도 이미지, 그리고 멀티모달 사전학습 기법을 결합해 시각‑텍스트 혼합 모델을 탐색할 여지가 있다.
전반적으로 이 논문은 고대 로고그래픽 언어 연구에 있어 “이미지를 바로 입력으로 활용하는” 새로운 패러다임을 제시함으로써, 방대한 미전사 이미지 자원을 NLP에 활용할 수 있는 실질적 길을 열었다는 점에서 큰 의의를 가진다.
댓글 및 학술 토론
Loading comments...
의견 남기기