휴대형 멀티스코픽 카메라를 이용한 동적 장면의 새로운 시점·시간 합성
초록
본 논문은 5대 카메라로 구성된 휴대형 멀티스코픽 시스템을 제안하고, 이를 이용해 시간·공간을 동시에 모델링하는 NeRF 기반 프레임워크를 개발한다. 카메라 파라미터를 학습 과정에서 최적화하고, SloMo 기반 프레임 보간을 통해 시간 축의 연속성을 강화한다. 실세계와 합성 데이터에서 기존 방법보다 우수한 정량·정성 결과를 보이며, 코드와 데이터셋을 공개한다.
상세 분석
이 논문은 동적 장면에 대한 새로운 시점(view)과 새로운 시간(time) 합성을 동시에 달성하기 위해 두 가지 핵심 기술을 결합한다. 첫째, 물리적으로 30 cm × 30 cm 크기의 라플톱 수준 휴대형 멀티스코픽 카메라를 설계하였다. 다섯 대의 RGB 카메라를 상·하·좌·우·중앙에 배치해 30 fps로 동기화된 멀티뷰 영상을 수집한다. 이 구조는 기존의 고정식 카메라 어레이와 달리 이동이 용이하고, 일반 사용자도 손쉽게 설치·운용할 수 있다는 실용적 장점을 가진다.
둘째, 수집된 멀티뷰 데이터를 활용해 6차원(3D 위치 + 시간 + 2D 시점) 입력을 받는 NeRF 모델을 설계한다. 기존 NeRF는 정적 장면을 5D(3D 위치 + 2D 시점)로만 표현했으나, 여기서는 시간 좌표 t를 추가하고, 별도의 시간 인코딩 네트워크 W(t)를 통해 고차원 잠재 표현 t₀를 얻는다. 이렇게 하면 시간에 따라 급격히 변하는 복잡한 동작도 연속적인 함수로 근사할 수 있다.
모델은 두 단계 MLP로 구성된다. MLP₁은 (x, y, z, t₀)를 입력받아 밀도 σ와 중간 특징 l_c를 출력하고, MLP₂는 l_c와 시점 벡터 d를 결합해 색상 c를 예측한다. 볼류메트릭 렌더링을 통해 레이마다 샘플링된 점들의 σ와 c를 적분해 최종 픽셀 색을 얻는다. 이때 샘플 수와 구간 길이 Δ_i를 조절해 연산 효율과 정확도 사이의 트레이드오프를 관리한다.
시간 축의 연속성을 강화하기 위해 논문은 SloMo 기반 프레임 보간을 도입한다. 인접 프레임 I_t, I_{t+1} 사이에 δ∈
댓글 및 학술 토론
Loading comments...
의견 남기기