입술과 제스처 결합 강인 오디오비주얼 화자 추출
초록
본 논문은 입술 영상과 상체 제스처를 동시에 활용하는 SeLG 모델을 제안한다. 교차‑어텐션 기반 융합으로 두 시각 모달리티가 음성 혼합 신호의 특징을 선택적으로 참조하도록 하고, 제스처 임베딩을 입술 임베딩에 정렬시키는 InfoNCE 대조 손실을 도입해 제스처 표현의 품질을 향상시킨다. YGD 데이터셋(TED 강연)에서 2·3인 화자 혼합 실험을 수행했으며, 완전 모달리티와 일부 모달리티가 결손된 상황 모두에서 기존 단일‑모달 및 단순 연결 기반 모델보다 높은 SI‑SNR 향상을 기록한다.
상세 분석
SeLG는 기존 오디오‑비주얼 화자 추출 연구가 입술 영상에만 의존해 온 한계를 극복하고, 상체 제스처라는 보조 시각 정보를 체계적으로 통합한다는 점에서 의미가 크다. 먼저 제스처 인코더는 10개의 관절 3D 좌표를 입력으로 받아 5층 BLSTM으로 시간적 동역학을 모델링한다. 이는 기존 연구에서 제스처를 단순히 시간축에 맞춰 연결(concatenation)한 것과 달리, 제스처 자체의 연속성을 학습하도록 설계된 점이 특징이다. 입술 인코더는 MuSE와 유사한 3D Conv‑ResNet 구조를 사용해 시각‑음성 정합성을 높은 수준으로 유지한다.
핵심 융합 메커니즘은 트랜스포머 기반 교차‑어텐션이다. 여기서 각 시각 임베딩(입술·제스처)이 쿼리(query) 역할을 수행하고, 음성 혼합 임베딩 X(t)가 키(key)와 값(value)으로 사용된다. 즉, 시각 정보가 음성 스펙트로그램의 어느 부분과 연관성이 높은지를 스스로 학습한다. 두 시각 어텐션 결과를 요소별 합산한 뒤, 듀얼‑패스 BLSTM에 전달해 마스크 M(t)를 추정한다. 이 구조는 단순 연결(concatenation) 방식에 비해 각 모달리티가 독립적으로 음성 특징을 탐색하고, 상호 보완적인 정보를 효율적으로 결합할 수 있게 한다.
또한 제스처 임베딩을 입술 임베딩에 정렬시키는 대조 학습(InfoNCE) 손실을 도입했다. 시간 t에서의 제스처 임베딩 Vg_i와 동일 시간의 입술 임베딩 Vl_i를 양성(pair)으로, 다른 시간의 입술 임베딩 Vl_j를 음성(negative)으로 설정해 온도 파라미터 κ=0.07을 적용한다. 이때 입술 임베딩은 그래프에서 분리(detached)되어 gradient가 역전파되지 않도록 함으로써, 제스처 표현만을 입술 표현에 맞추도록 유도한다. 결과적으로 제스처와 입술 사이의 시공간 정합성이 강화돼, 특히 입술이 가려지거나 저해상도일 때 제스처가 보다 신뢰할 수 있는 보조 신호가 된다.
실험은 YGD‑2mix와 YGD‑3mix 두 가지 시나리오에서 수행되었다. 전체 테스트 셋(완전·결손 모달리티 혼합)에서 SeLG†(교차‑어텐션, SI‑SNR 손실만)와 SeLG(교차‑어텐션 + InfoNCE) 모두 기존 Lip‑only(USEV)와 Gesture‑only(SEG)보다 35 dB 높은 SI‑SNRi를 달성했다. 특히 결손 모달리티 상황에서 단일 모달리티 모델은 성능이 급락(−2−1 dB)하는 반면, SeLG는 9~10 dB 수준의 안정적인 향상을 유지했다. 이는 두 시각 정보가 상호 보완적으로 작용함을 실증한다. 또한 교차‑어텐션만 적용한 SeLG†가 단순 연결 기반 SeLG◦에 비해 0.6 dB(2인 화자)·0.2 dB(3인 화자) 정도의 추가 이득을 제공했으며, InfoNCE 손실을 더한 최종 모델이 가장 높은 성능을 기록했다.
전반적으로 SeLG는 (1) 시각‑음성 교차‑어텐션을 통한 정교한 특징 선택, (2) 대조 학습을 통한 제스처 표현 강화, (3) 결손 모달리티에 대한 견고성 확보라는 세 축을 동시에 만족한다. 향후 실시간 로봇 인터랙션이나 저해상도 감시 영상 등, 시각 정보가 불완전하거나 다양하게 변하는 실제 환경에 적용 가능성이 높다.
댓글 및 학술 토론
Loading comments...
의견 남기기