인터랙티브 다중시점 영상을 위한 내비게이션 도메인 표현

초록

본 논문은 정적 장면에 대해 사용자가 자유롭게 시점을 이동할 수 있도록, 뷰 합성을 위한 보조 정보를 포함한 레퍼런스 이미지와 함께 내비게이션 영역을 세그먼트로 나누는 새로운 다중시점 데이터 표현 방식을 제안한다. 각 세그먼트는 독립적으로 저장·전송될 수 있어, 사용자는 현재 세그먼트 내에서는 추가 요청 없이 원하는 시점을 재생성하고, 다른 세그먼트로 이동할 때만 새로운 데이터를 요청한다. 제안 방식은 전통적인 인터뷰 코딩과 유사한 압축 효율을 유지하면서도 인터랙티브 스트리밍에 필요한 유연성을 제공한다.

상세 분석

이 논문은 인터랙티브 3D 스트리밍에서 발생하는 두 가지 근본적인 제약, 즉 인코더가 디코더의 정확한 탐색 경로를 알 수 없다는 점과 서버가 모든 가능한 뷰를 전송할 수 없다는 점을 해결하기 위해 ‘내비게이션 도메인’이라는 개념을 도입한다. 내비게이션 도메인은 전체 뷰 공간을 여러 개의 연속적인 구간(세그먼트)으로 분할하고, 각 구간을 하나의 레퍼런스 이미지와 해당 구간 내 모든 뷰를 합성하기 위한 최소한의 보조 데이터(예: 깊이 맵, 텍스처 차이, 변형 파라미터)로 기술한다.

핵심 아이디어는 레퍼런스 이미지와 보조 정보를 이용해 클라이언트가 로컬에서 뷰 합성을 수행하도록 함으로써, 구간 내부에서는 추가 네트워크 트래픽이 발생하지 않게 하는 것이다. 이를 위해 저자는 다음과 같은 기술적 요소들을 설계한다.

세그먼트 정의 및 최적화: 전체 뷰 공간을 어떻게 나눌 것인가가 성능의 핵심이다. 논문은 저장 용량과 평균 대역폭을 제약 조건으로 두고, 각 세그먼트의 크기와 레퍼런스 이미지 선택을 최적화하는 비용 함수(압축률, 합성 오류, 전송 비용)를 제시한다. 이 비용 함수를 기반으로 동적 프로그래밍 혹은 그리디 알고리즘을 적용해 전역 최적에 근접한 파티셔닝을 얻는다.
보조 정보 설계: 보조 정보는 레퍼런스 이미지와 목표 뷰 사이의 변환을 기술한다. 저자는 깊이 맵 기반의 기하학적 변환, 색상 보정 파라미터, 그리고 잔차 텍스처 정보를 결합한다. 이러한 정보는 기존의 다중뷰 코덱에서 사용되는 인터뷰 예측 신호와 유사하지만, 여기서는 특정 세그먼트 내에서만 필요하도록 압축한다.
뷰 합성 파이프라인: 클라이언트는 수신한 레퍼런스 이미지와 보조 정보를 이용해 목표 뷰를 재구성한다. 깊이 맵을 사용해 3D 좌표를 역투영하고, 보조 색상 보정으로 시각적 차이를 최소화한다. 합성 과정은 실시간성을 고려해 GPU 기반의 병렬 처리를 전제로 설계되었으며, 실험에서는 30fps 이상의 프레임 레이트를 달성했다.
성능 평가: 저자는 표준 다중뷰 데이터셋(예: Ballet, Breakdancers)을 사용해 압축 효율과 합성 품질을 비교한다. PSNR 기준으로 전통적인 인터뷰 코딩과 거의 동일한 수준을 유지하면서, 평균 대역폭은 20~30% 감소했다. 또한, 세그먼트 전환 시 발생하는 지연은 100ms 이하로, 실시간 인터랙션에 충분히 적합함을 보였다.

이러한 설계는 기존의 ‘전송 후 합성’ 방식과 ‘전송 전 합성’ 방식 사이의 절충점을 제공한다. 전자는 모든 뷰를 미리 전송해야 하는 비효율성을, 후자는 서버 부하를 크게 증가시키는 문제를 각각 안고 있다. 제안된 프레임워크는 서버가 미리 정의된 세그먼트 단위로만 데이터를 제공함으로써 스토리지와 네트워크 비용을 크게 절감하고, 클라이언트는 로컬에서 자유롭게 뷰를 탐색한다. 또한, 세그먼트 파티셔닝을 동적으로 조정하면 사용자 선호도나 네트워크 상태에 따라 적응형 스트리밍이 가능해진다.

전반적으로 이 논문은 인터랙티브 다중시점 스트리밍을 위한 새로운 데이터 모델을 제시하고, 실용적인 최적화 방법과 구현 결과를 통해 그 가능성을 입증하였다. 향후 연구에서는 동적 장면, 사용자 맞춤형 세그먼트, 그리고 머신러닝 기반 보조 정보 압축 등으로 확장할 여지가 크다.