극한 대역폭에서도 끊김 없는 화상회의 — 오디오 기반 가상 얼굴 재생 시스템

극한 대역폭에서도 끊김 없는 화상회의 — 오디오 기반 가상 얼굴 재생 시스템
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

**
본 논문은 WebRTC 기반 화상회의에 오디오‑구동 가상 얼굴 생성 모듈을 결합한 적응형 시스템을 제안한다. 네트워크 대역폭이 충분할 때는 기존 영상 스트림을 전송하고, 대역폭이 급감하면 실시간 음성만 전송하면서 사전에 등록된 얼굴 이미지와 음성을 이용해 AI가 합성한 talking‑head 영상을 클라이언트에서 재생한다. 실험 결과 합성 영상 스트림은 평균 32.8 kbps의 초저대역폭으로 전송 가능하며, 자동 전환 로직과 텔레메트리 기반 모드 제어가 안정적인 통화 품질을 유지한다.

**

상세 분석

**
VineetVC는 크게 네 가지 핵심 요소로 구성된다. 첫째, WebRTC와 WebSocket을 이용한 시그널링·미디어 전송 인프라와 선택적 SFU(Selective Forwarding Unit) 도입으로 다자간 회의 확장성을 확보한다. 둘째, 브라우저에서 getStats API를 주기적으로 호출해 전송·수신 바이트, RTP 패킷 손실, 지터 등을 실시간 텔레메트리로 수집하고, 이를 기반으로 이동 평균 필터(α)로 스무딩한 ‘goodput’ 값을 산출한다. 셋째, 미리 정의된 임계값(예: goodput < 150 kbps) 이하로 떨어지면 시스템은 ‘AI 모드’로 전환한다. 이때 카메라 트랙을 폐쇄하고, 사용자가 사전에 제공한 얼굴 사진과 현재 마이크 입력 음성을 REST‑API로 전송한다. 백엔드에서는 최신 오디오‑구동 talking‑head 모델(Wav2Lip, MakeItTalk, SadTalker 등)을 선택적으로 호출해 입술 움직임과 제한적인 머리 움직임을 동기화한 MP4 스트림을 생성한다. 넷째, 생성된 MP4를 MediaStream 객체로 변환해 기존 WebRTC 피어 연결에 삽입함으로써 상대방에게는 ‘가상 영상’이 전달된다.

이 설계는 기존 비디오 코덱이 대역폭 감소 시 발생하는 프레임 손실·키프레임 재전송 지연 문제를 회피한다. 오디오 코덱(Opus)은 6 kbps 수준에서도 intelligible한 음성을 제공하므로, 영상 전송을 완전히 차단하고 오디오와 저용량 제어 신호(R_ctrl, R_ref)만 전송해도 대화 흐름을 유지한다. 또한, 텔레메트리 기반 자동 전환 로직은 사용자가 수동으로 비디오 품질을 조정할 필요 없이 네트워크 상황에 즉각 대응한다는 점에서 실용성이 높다.

성능 평가에서는 3 km 거리의 4G/5G 셀룰러 환경과 제한된 Wi‑Fi(≤ 200 kbps)에서 장시간(≥ 30 분) 테스트를 수행했다. 정상 모드에서는 평균 비디오 비트레이트 1.2 Mbps, 프레임 레이트 24 fps를 유지했으며, 대역폭이 150 kbps 이하로 떨어지면 즉시 AI 모드로 전환돼 평균 32.8 kbps의 합성 영상 스트림을 제공했다. 주관적 품질 설문에서는 “영상이 없지만 얼굴이 살아있다”는 응답이 78 %에 달했으며, 기존 플랫폼이 완전히 영상 전송을 중단하는 경우에 비해 대화 지속 시간이 2.3배 향상되었다.

한계점으로는 현재 구현이 2D 입술 동기화에 머물러 있어 머리 회전·표정 변화가 제한적이며, 장시간 합성 시 미세한 시간 drift가 발생한다는 점이다. 또한, 얼굴 이미지가 사전에 등록되지 않은 경우 초기 설정 단계가 필요하고, 개인 식별 정보 보호를 위한 암호화·동의 절차가 추가되어야 한다. 향후 연구에서는 3D 얼굴 모델링, diffusion 기반 고해상도 렌더링, 그리고 프라이버시‑보호 강화(예: homomorphic encryption) 등을 통합해 실시간성·품질·보안을 동시에 만족시키는 방향으로 확장할 여지가 크다.

**


댓글 및 학술 토론

Loading comments...

의견 남기기