동적 장면 재구성을 위한 D4RT 하나의 쿼리로 4D 씬 효율적 복원
초록
D4RT는 비디오를 입력으로 받아 단일 트랜스포머 인코더와 경량 크로스‑어텐션 디코더로 구성된 피드포워드 모델이다. 2D 좌표와 시간 정보를 포함한 쿼리를 자유롭게 생성해 원하는 시점·카메라 기준의 3D 위치를 바로 예측한다. 이 설계는 밀집 디코딩을 없애고, 깊이, 카메라 파라미터, 동적 트래킹 등 4D 재구성 작업을 하나의 인터페이스로 통합한다. 실험 결과, 기존 방법보다 높은 정확도와 5~100배 빠른 속도를 달성하며, 동적 씬에서도 완전한 포인트 클라우드와 트랙을 복원한다.
상세 분석
D4RT는 기존 4D 재구성 파이프라인이 갖는 “다중 모듈·다중 디코더” 구조의 복잡성을 근본적으로 재설계한다. 핵심 아이디어는 쿼리 기반 디코딩이다. 비디오 전체를 전역적인 Global Scene Representation(F) 로 압축한 뒤, 사용자는 (u, v, t_src, t_tgt, t_cam) 형태의 5‑차원 쿼리를 자유롭게 정의한다. 여기서 (u, v)는 소스 프레임의 정규화된 픽셀 좌표, t_src는 해당 픽셀이 존재하는 시점, t_tgt는 목표 시점, t_cam은 결과를 표현할 카메라 좌표계를 의미한다. 쿼리는 Fourier 임베딩과 시점 임베딩을 결합해 토큰화되고, 경량 크로스‑어텐션 디코더가 F와 교차하여 3차원 위치 P를 직접 출력한다.
이 설계는 세 가지 중요한 장점을 제공한다. 첫째, 공간·시간의 완전 분리가 가능해 인덱스가 일치하지 않아도 자유롭게 조합할 수 있다. 둘째, 각 쿼리는 서로 독립적으로 처리되므로 병렬화가 용이하고, 학습 시에는 소수의 샘플만 사용해도 충분히 지도 신호를 제공한다. 셋째, 동일한 디코더가 깊이, 카메라 외부·내부 파라미터, 포인트 트랙 등 모든 4D 정보를 출력하므로 멀티태스크 통합이 자연스럽게 이루어진다.
카메라 외부 파라미터는 동일한 (h, w) 격자에서 추출한 다수의 3D 점들을 이용해 두 프레임 사이의 강체 변환을 Umeyama 알고리즘으로 추정한다. 내부 파라미터는 동일 격자에서 얻은 3D 좌표와 픽셀 좌표를 이용해 초점 길이를 역계산하고, 중앙값을 취해 강인성을 확보한다. 이러한 방식은 별도의 포즈 추정 네트워크 없이도 내재된 기하학적 일관성을 유지한다.
또한 D4RT는 밀집 트래킹을 위한 효율적인 알고리즘을 제시한다. 전체 픽셀에 대해 O(T²·HW) 쿼리를 생성하는 대신, 방문 여부를 기록하는 3D 점유 그리드 G를 활용한다. 아직 방문되지 않은 픽셀에서 시작된 트랙은 해당 트랙이 지나가는 모든 시공간 픽셀을 방문 처리함으로써 중복 계산을 크게 줄인다. 실험에서는 장면 복잡도에 따라 5~15배의 속도 향상이 관찰되었다.
성능 평가에서는 Sintel, ScanNet, KITTI 등 다양한 데이터셋에서 기존 최첨단 메가사믹(MegaSaM), VGGT, SpatialTrackerV2 등을 능가했다. 특히 포즈 정확도(1‑error)와 처리량(FPS) 사이의 Pareto 최적점을 달성했으며, A100 GPU에서 200 FPS 이상의 추론 속도를 기록했다. 이는 디코더가 경량화되고, 쿼리당 연산량이 작아 실시간 응용에도 충분히 활용 가능함을 의미한다.
전체적으로 D4RT는 트랜스포머 기반 인코더와 독립 쿼리 디코더의 조합을 통해 4D 재구성 문제를 단일 단계, 단일 모델로 해결한다는 점에서 혁신적이며, 향후 동적 장면 이해, 증강 현실, 로봇 내비게이션 등 다양한 분야에 적용될 잠재력이 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기