정렬 인식 변분 모델링을 통한 분리형 수화 생성

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 수화 생성에서 손·얼굴·몸통 등 각 관절별 특징을 분리해 표현하는 변분 오토인코더와, 텍스트를 입력으로 관절별 평균·분산을 예측하는 비자율적 트랜스포머를 결합한 A²V‑SLP 프레임워크를 제안한다. Gloss‑attention을 도입해 텍스트와 동작 사이의 시간 정렬을 강화하고, 분포 기반 잠재 표현을 활용해 평균 회귀 현상을 완화한다. PHOENIX‑2014T와 CSL‑Daily 데이터셋에서 기존 결정론적 방법 대비 백트랜슬레이션 정확도와 동작 자연스러움에서 우수한 성능을 보였다.

상세 분석

A²V‑SLP는 두 단계 구조를 채택한다. 첫 번째 단계는 관절별(오른손, 왼손, 몸통, 얼굴)로 구분된 변분 오토인코더(VAE)를 학습해, 입력된 3차원 스켈레톤 시퀀스를 각각 평균 µ와 로그분산 log σ²로 매핑한다. 각 관절은 독립적인 2‑layer MLP 인코더를 통해 잠재 차원(손 28, 몸통 8, 얼굴 16)으로 압축되며, 재파라미터화 트릭을 이용해 샘플링한다. 이때 KL 손실을 낮은 가중치로 적용해 표준 정규분포와의 정규화를 유지하면서 재구성 손실을 우선시한다. 이렇게 얻어진 관절별 확률분포는 “분포적 감독(distributional supervision)”으로 활용된다.

두 번째 단계에서는 사전 학습된 VAE 인코더를 고정하고, BERT 기반 텍스트 임베딩을 입력으로 하는 비자율적 트랜스포머 디코더가 각 프레임에 대해 관절별 평균과 로그분산을 직접 예측한다. 디코더는 고정된 시간 쿼리(중립 자세에서 초기화된)를 사용해 병렬적으로 출력하고, 기존의 전역 셀프‑어텐션 대신 Gloss‑attention을 적용해 각 프레임이 주변 N 프레임만을 참조하도록 제한한다. 이는 연속 수화에서 짧은 시간 구간에 강한 의존성을 갖는 특성을 반영해 텍스트‑동작 정렬을 강화한다. 손실 함수는 관절 가중치를 적용한 L1 회귀 손실과, 예측된 분포와 VAE 후방 분포 사이의 KL 발산을 결합한다.

핵심 기여는 다음과 같다. 첫째, 결정론적 잠재 벡터 대신 평균·분산이라는 확률적 파라미터를 학습함으로써 “평균 회귀” 문제를 완화하고, 관절별 변동성을 명시적으로 모델링한다. 둘째, Gloss‑attention을 통해 글로스 라벨 없이도 텍스트와 동작 사이의 로컬 정렬을 유도한다. 셋째, 관절별 가중치를 동적으로 조정하는 L1 가중치 스케줄링을 도입해 손 움직임의 세밀함을 보존한다.

실험에서는 PHOENIX‑2014T와 CSL‑Daily 두 데이터셋에 대해 백트랜슬레이션 BLEU와 손·얼굴·몸통 별 움직임 품질을 평가했다. A²V‑SLP는 기존 비변분 모델 대비 BLEU + 2~3점, 손 관절의 평균 관절 거리(MPJPE) 감소, 그리고 주관적 인간 평가에서 자연스러움 점수가 유의하게 높았다. 특히 Gloss‑attention을 사용하지 않은 변형과 비교했을 때, 시간 정렬 정확도가 향상되어 전체 시퀀스 길이 예측 오류가 감소하였다.

이러한 결과는 변분 잠재 공간과 로컬 어텐션이 결합될 때, 수화 생성에서 관절별 세밀한 움직임과 텍스트‑동작 정렬을 동시에 달성할 수 있음을 보여준다. 향후 연구에서는 더 복잡한 다중 화자 환경이나 비디오‑레벨 렌더링과의 연계, 그리고 변분 디코더에 대한 샘플링 전략 최적화가 기대된다.

정렬 인식 변분 모델링을 통한 분리형 수화 생성

초록

상세 분석

댓글 및 학술 토론

의견 남기기