TransformerFusion 단일 RGB 영상 실시간 3D 장면 재구성
초록
TransformerFusion은 단일 RGB 비디오 스트림을 입력으로 받아, 트랜스포머 기반의 시계열 특징 융합을 통해 볼류메트릭 특징 그리드를 생성하고, 이를 MLP 디코더로 고해상도 점유율 필드로 변환한다. 코스-투-파인 계층 구조와 주의 기반 뷰 선택 메커니즘을 도입해 메모리 사용을 최소화하고, 실시간(≈7 FPS) 수준의 온라인 재구성을 가능하게 한다. 실험 결과, 기존 다중 뷰 스테레오·CNN·RNN 기반 방법들을 크게 앞선 정밀도와 재구성 품질을 보인다.
상세 분석
TransformerFusion은 기존의 다중 뷰 깊이 추정 및 3D 재구성 파이프라인이 갖는 두 가지 근본적인 한계를 극복한다. 첫째, 전통적인 비용 볼륨이나 평균화 방식은 모든 프레임을 동등하게 취급해 흐림, 롤링 셔터, 부분 가시성 등으로 정보가 저하된 프레임이 전체 성능을 저해한다. 논문은 트랜스포머의 자체 주의 메커니즘을 이용해 각 3D 위치마다 가장 유용한 뷰를 동적으로 선택하도록 학습한다. 입력 이미지에서 추출된 2D 특징(코스와 파인 레벨)과 투영 깊이·시선 벡터를 임베딩한 뒤, N개의 시점 특징을 시계열 차원에서 트랜스포머에 공급한다. 초기 멀티헤드 어텐션 가중치 w는 이후 뷰 선택 단계에서 가장 큰 값을 가진 K=16개의 프레임만 유지하도록 사용돼, 긴 시퀀스에서도 연산량을 일정하게 유지한다.
둘째, 메모리와 연산 효율성을 위해 코스‑투‑파인 계층을 설계했다. 코스 레벨에서는 30 cm 격자를, 파인 레벨에서는 10 cm 격자를 사용해 각각 별도의 트랜스포머 T_c, T_f 로 특징을 융합한다. 코스 특징은 3D CNN(C_c)으로 정제된 뒤 최근접 보간으로 파인 격자에 업샘플링되고, 파인 특징과 결합해 또 다른 3D CNN(C_f)으로 세밀히 다듬는다. 이 과정에서 근접 표면 마스크(m_c, m_f)를 예측해 자유 공간을 조기에 배제함으로써 파인 레벨 연산을 표면 근처에만 집중한다.
최종적으로, 정제된 코스·파인 특징을 트라이리니어 보간해 하나의 256‑차원 벡터로 결합하고, 3‑계층 MLP(S)로 점유율 o∈
댓글 및 학술 토론
Loading comments...
의견 남기기