이벤트 카메라 기반 3D 가우시안 스플래팅의 정확도와 시간 해상도 균형 맞추기

초록

이벤트 카메라는 전통적인 프레임 기반 카메라에 비해 높은 시간 해상도를 제공해 움직임 및 구조 추정에 유리하지만, 희소한 이벤트의 세밀한 시간 정보를 3D 가우시안 스플래팅(3DGS)에 어떻게 활용할지는 아직 명확하지 않았다. 본 연구는 렌더링을 두 개의 분기(브랜치)로 분리하는 프레임워크를 제안한다. 하나는 레이 트레이싱을 이용해 이벤트별 깊이(기하) 정보를 렌더링하고, 다른 하나는 워핑된 이벤트 이미지를 사용해 스냅샷 기반 방사(강도) 정보를 렌더링한다. 광범위한 평가 결과, 제안 방법은 실제 데이터셋에서 최첨단 성능을 달성했으며, 합성 데이터셋에서도 경쟁력 있는 결과를 보였다. 또한 사전 학습된 이미지 복원 모델이나 COLMAP 기반 초기화 없이도 동작하며, 이벤트 선택 수에 유연하고, 장면 가장자리에서 선명한 재구성을 빠른 학습 시간 내에 구현한다. 코드는 곧 공개될 예정이다.

상세 요약

이 논문은 이벤트 카메라가 제공하는 초고속 시간 해상도를 3D 가우시안 스플래팅(3DGS)이라는 최신 신경 렌더링 기법에 효과적으로 접목시키는 방법을 제시한다는 점에서 큰 의의를 가진다. 기존 3DGS 연구는 주로 고해상도 이미지 시퀀스를 입력으로 사용했으며, 이벤트 카메라가 생성하는 비정형적이고 희소한 이벤트 스트림을 직접 다루기에는 한계가 있었다. 저자들은 이 문제를 ‘렌더링을 두 개의 독립적인 브랜치로 분리’한다는 전략으로 해결한다. 첫 번째 브랜치는 레이 트레이싱을 통해 이벤트마다 개별적인 깊이 정보를 복원한다. 이는 이벤트가 발생한 순간의 카메라 위치와 방향을 정확히 추정함으로써, 기존 프레임 기반 방법보다 더 정밀한 기하학적 재구성을 가능하게 한다. 두 번째 브랜치는 워핑된 이벤트 이미지, 즉 이벤트를 시간축에 따라 정렬해 만든 스냅샷을 이용해 방사(색상·강도) 정보를 추정한다. 이 접근법은 이벤트의 시간적 연속성을 활용해 노이즈를 억제하고, 고주파 디테일을 보존한다는 장점을 갖는다.

실험에서는 실제 환경에서 촬영된 여러 데이터셋과, 물리 기반 렌더링으로 만든 합성 데이터셋을 모두 사용해 정량·정성 평가를 수행했다. 결과는 기존 최첨단 방법들을 능가하거나 동등한 수준을 보였으며, 특히 가장자리 보존력과 학습 속도에서 두드러진 개선을 확인할 수 있었다. 흥미롭게도, 사전 학습된 이미지 복원 네트워크나 COLMAP 같은 외부 구조 초기화 없이도 높은 품질의 3D 재구성이 가능했다는 점은 시스템의 독립성과 실용성을 크게 높인다.

한계점으로는 이벤트 선택 수에 따라 연산량이 변동한다는 점과, 극도로 저조도 환경에서 이벤트 발생 빈도가 감소할 경우 깊이 추정 정확도가 떨어질 가능성이 있다. 향후 연구에서는 적응형 이벤트 샘플링 전략과, 저조도 상황에서도 강인한 이벤트 디텍터를 결합함으로써 이러한 약점을 보완할 수 있을 것이다. 또한, 제안 프레임워크를 실시간 AR/VR 응용에 적용하기 위한 경량화 및 하드웨어 가속 연구도 기대된다.

초록

상세 요약

📜 논문 원문 (영문)