저자원 교육용 아바타를 위한 Vedic 기반 실시간 입술 동기화 시스템

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 GPU 없이도 CPU만으로 실시간 입술 움직임을 생성할 수 있는 ‘VedicTHG’ 프레임워크를 제안한다. 음성을 강제 정렬하거나 경량 인식기로부터 얻은 음소 스트림을 사전 정의된 12~20개의 비셈(입 모양)으로 매핑하고, 인도 전통 산술인 ‘Urdhva Tiryakbhyam’에서 영감을 얻은 교차항을 이용해 부드러운 전이와 공동발음(co‑articulation)을 구현한다. 2D ROI 워핑과 입술 텍스처 합성을 통해 얼굴 전체는 템플릿을 유지하면서 입만 변형한다. 실험에서는 CPU 전용 환경에서 30 fps, 37 ms 프레임 지연을 달성했으며, 동기화 정확도 100 % (±40 ms)와 낮은 CPU 사용률(≈30 %)을 기록해 기존 신경망 기반 방법 대비 10배 이상 효율성을 보였다.

상세 분석

VedicTHG는 크게 네 단계로 구성된다. 첫 번째는 음성 입력을 실시간으로 음소 시퀀스로 변환하는 단계이다. 여기서는 전사 기반 강제 정렬과 경량 MFCC‑기반 음소 인식 두 가지 옵션을 제공해, 하드웨어 사양에 따라 정확도와 지연시간을 조절한다. 두 번째 단계는 음소‑비셈 매핑이다. 논문은 기존 연구에서 제시된 시각적으로 유사한 음소들을 12~20개의 비셈 클래스로 집계한 고정 lookup table을 사용한다. 이는 학습이 필요 없으며, 비셈 파라미터(랜드마크 오프셋, 워프 계수 등)를 직접 제어할 수 있게 한다. 세 번째는 ‘Vedic 교차항’이라 명명한 공동발음 블렌딩이다. 전통적인 선형 보간 대신, 두 비셈 파라미터 a와 c에 대해 y(t) = (1‑α)a + αc + λ α(1‑α)(a⊙c) 형태의 식을 적용한다. 여기서 ⊙는 원소별 곱이며, λ는 교차항 강도를 조절한다. 이 식은 α가 0 또는 1일 때 교차항이 사라져 경계에서 급격한 변화를 방지하고, 중간에서는 곡률을 부여해 부드러운 전이를 만든다. 연산량은 벡터화된 덧셈·곱셈 몇 번에 불과해 CPU에서 실시간 처리에 적합하다. 마지막 단계는 2D ROI 렌더러이다. 얼굴 랜드마크 검출 후 입 영역을 안정화된 바운딩 박스로 정의하고, 미리 준비된 입 텍스처 뱅크에서 해당 비셈에 맞는 텍스처를 워핑·합성한다. 머리 전체는 affine 변환으로 미세 움직임을 보정하지만, 템플릿 이미지 자체를 유지해 아이덴티티 드리프트를 최소화한다. 실험에서는 GRID·TCD‑TIMIT·LRS2·VoxCeleb 등 공개 데이터셋을 사용해 동기화 정확도(±40 ms 내 100 %), SyncNet 거리, LPIPS/SSIM, 얼굴 임베딩 코사인 거리 등을 평가했다. CPU‑only 환경(16‑core Xeon)에서 렌더링만 37 ms/프레임(≈27 fps)으로, 기존 Wave2Lip CPU 버전이 957 ms/프레임에 비해 30배 이상 빠른 것을 확인했다. Ablation 연구에서는 교차항을 제거하면 전이 부드러움이 감소하고, Δ(오버랩 마진)와 β(스테빌라이제이션) 파라미터를 조정함으로써 지터와 지연 사이의 트레이드오프를 정량화했다. 전체적으로 VedicTHG는 학습‑프리, 결정론적, 저전력 특성을 갖추어 오프라인 교육 환경이나 저사양 디바이스에 적합한 실용적인 솔루션임을 입증한다.

저자원 교육용 아바타를 위한 Vedic 기반 실시간 입술 동기화 시스템

초록

상세 분석

댓글 및 학술 토론

의견 남기기