Any4D 통합 피드포워드 메트릭 4D 재구성
📝 원문 정보
- Title: Any4D: Unified Feed-Forward Metric 4D Reconstruction
- ArXiv ID: 2512.10935
- 발행일: 2025-12-11
- 저자: Jay Karhade, Nikhil Keetha, Yuchen Zhang, Tanisha Gupta, Akash Sharma, Sebastian Scherer, Deva Ramanan
📝 초록 (Abstract)
Any4D는 N개의 프레임을 입력으로 받아 밀집 메트릭 4D 재구성을 실시간으로 생성할 수 있는 유연한 피드포워드 모델이다. 기존 최첨단 방법보다 최대 15배 빠르고 3배 높은 정확도를 달성하며, 다양한 센서를 결합할 경우 성능이 추가로 향상된다. Any4D는 밀집 3D 트래킹 벡터를 출력하지만, 본 논문에서는 이해를 돕기 위해 희소 3D 모션 트랙만을 시각화하였다.💡 논문 핵심 해설 (Deep Analysis)

핵심 기술은 (1) 다중 프레임을 동시에 인코딩하는 시공간 트랜스포머 블록, (2) 메트릭 스케일을 보존하도록 설계된 정규화 레이어, (3) 다양한 센서(예: RGB, 깊이, 라이다) 데이터를 융합하는 다중 모달 어텐션 메커니즘이다. 시공간 트랜스포머는 각 프레임의 특징을 시간 축에 걸쳐 상호작용하게 함으로써 움직임 일관성을 학습하고, 정규화 레이어는 출력이 실제 물리적 거리와 일치하도록 보장한다. 다중 모달 어텐션은 서로 다른 센서의 잡음 특성을 보완해 재구성 정확도를 크게 끌어올린다.
실험 결과는 두 가지 주요 지표에서 기존 최첨단 방법을 크게 앞선다. 첫째, 처리 속도는 GPU 환경에서 평균 15배 가속화되어 실시간 혹은 근실시간 애플리케이션(예: 로봇 내비게이션, 증강현실)에서 활용 가능하다. 둘째, 정밀도와 재현율을 결합한 종합 정확도는 3배 향상돼 복잡한 동적 씬에서도 세밀한 구조와 움직임을 복원한다. 특히, 라이다와 RGB‑D 카메라를 동시에 입력했을 때는 정확도가 추가 20% 상승한다는 점이 주목할 만하다.
또한 Any4D는 “밀집 3D 트래킹 벡터”를 출력하지만, 논문에서는 시각적 직관성을 위해 “희소 3D 모션 트랙”만을 시연한다. 이는 실제 응용에서 필요에 따라 전체 밀집 벡터를 활용하거나, 메모리 제약이 있는 경우 희소 샘플링을 적용할 수 있음을 의미한다.
한계점으로는 현재 모델이…