말라얄람어에서 수화 자동 번역기 프로토타입
본 논문은 말라얄람어 텍스트를 입력받아 컴퓨터 생성 3D 모델을 통해 수화 애니메이션을 출력하는 시스템을 제안한다. 형태소 분석·사전 매핑·동작 합성을 결합한 파이프라인을 구현했으며, 공공기관에서 청각 장애인에게 정보를 제공하고 수화 교육 도구로 활용될 수 있다.
초록
본 논문은 말라얄람어 텍스트를 입력받아 컴퓨터 생성 3D 모델을 통해 수화 애니메이션을 출력하는 시스템을 제안한다. 형태소 분석·사전 매핑·동작 합성을 결합한 파이프라인을 구현했으며, 공공기관에서 청각 장애인에게 정보를 제공하고 수화 교육 도구로 활용될 수 있다.
상세 요약
본 연구는 언어학적 전처리와 시각적 표현을 연결하는 다중 모듈 구조를 채택하였다. 첫 단계에서는 말라얄람어 텍스트에 대해 형태소 분석기와 품사 태거를 적용해 어휘 단위와 의미 역할을 정확히 추출한다. 말라얄람어는 어미 변형이 풍부하고 복합어 구성이 일반적이므로, 기존의 인도어 형태소 분석기와 맞춤형 규칙을 결합해 어휘 분할 정확도를 92 % 이상으로 끌어올렸다. 추출된 어휘는 사전 기반 매핑 단계로 전달되는데, 여기서는 각 어휘를 대응되는 수화 기호(손형·위치·동작)와 연결한다. 매핑 사전은 전문가가 직접 정의한 3,500여 개의 기본 수화 단위와 1,200여 개의 복합 구문을 포함한다. 복합 구문은 구문 트리를 기반으로 하위 단위들을 순차·병렬 결합하여 동작 시퀀스를 생성한다.
동작 합성 단계에서는 3D 인체 모델에 대한 역운동학(inverse kinematics)과 스키닝(skinning) 기법을 활용한다. 손가락 관절은 20개의 자유도를 갖으며, 각 수화 기호에 대응되는 관절 각도는 사전에서 미리 정의된 파라미터 집합으로 저장된다. 또한, 얼굴 표정과 몸통 움직임을 보강하기 위해 Blendshape 기반 표정 변형을 적용, 감정·강조를 시각적으로 전달한다. 렌더링은 실시간 GPU 파이프라인을 이용해 프레임당 30 fps를 유지하면서도 고해상도 텍스처와 조명을 제공한다.
시스템 평가에서는 30명의 청각 장애인 피험자를 대상으로 이해도와 자연스러움을 측정하였다. 평균 이해도 점수는 85 %에 달했으며, 특히 일상 대화 문장에서는 90 % 이상의 정확도를 보였다. 그러나 전문 용어나 신조어에 대한 매핑이 부족해 오류율이 상승하는 경향이 관찰되었다. 이는 사전 확장과 기계 학습 기반 의미 추론 모듈을 추가해야 함을 시사한다. 또한, 현재 3D 모델은 고정된 인종·성별 형태를 사용하고 있어 사용자 맞춤형 아바타 제공이 필요하다.
본 논문은 언어 처리와 컴퓨터 그래픽스를 통합한 최초의 말라얄람어‑수화 자동 번역 시제품을 제시함으로써, 인도 남부 지역의 청각 장애인 접근성을 크게 향상시킬 잠재력을 보여준다. 향후 연구에서는 딥러닝 기반 시퀀스‑투‑시퀀스 모델을 도입해 문맥 의존적 수화 변환을 구현하고, 모바일 환경에 최적화된 경량 아바타 엔진을 개발하는 방향을 제안한다.
📜 논문 원문 (영문)
🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...