Few TensoRF 적은 샷 3D 재구성을 위한 고속 텐서 방사장

본 논문은 적은 입력 이미지(소위 few‑shot) 상황에서도 빠르고 정확한 3D 재구성을 목표로, TensorRF와 FreeNeRF의 장점을 융합한 “Few TensoRF” 프레임워크를 제안한다. 기존 NeRF는 고품질 렌더링을 제공하지만 수백 장 이상의 이미지와 수십 시간에 달하는 학습 시간이 필요했다. TensorRF는 4차원 텐서와 VM 분해를 도입해 장면을 밀도 그리드 Gσ와 색상 그리드 Gc로 분리하고, 각 그리드를 저차원 텐서로 압축함으로써 메모리와 연산량을 크게 줄였다. 그러나 TensorRF는 입력 뷰가 극히 적을 때 고주파 성분이 과도하게 학습되어 잡음이 발생하고, 전체적인 재구성 품질이 저하되는 한계가 있었다. FreeNeRF는 이러한 few‑shot 문제를 해결하기 위해 주파수 마스크와 오클루전 정규화를 제안했다. 주파수 마스크는 학습 초기에 저주파만 활성화하고, 점진적으로 고주파를 허용함으로써 모델이 안정적으로 저주파 구조를 학습하도록 유도한다. 오클루전 정규화는 카메라에 가까운 영역에서 불필요한 밀도 값을 0으로 강제해, 모델이 실제 물체가 존재하는 더 먼 영역에 집중하도록 만든다. Few TensoRF는 위 두 정규화 기법을 TensorRF의 텐서 구성 요소(A, Ac)와 색상 그리드 Gc에 적용한다. 구체적으로, 현재 이터레이션 t와 전체 이터레이션 T에 기반한 동적 마스크 α(t,T,L)를 계산해 A와 Ac에 element‑wise 곱을 수행한다. 이는 텐서가 고주파 신호에 과도하게 반응하는 것을 억제하고, 저주파 구조를 먼저 학습하도록 만든다. 또한, 색상 그리드와 뷰 방향 d에 동일한 마스크를 적용해 MLP가 고주파를 과도하게 학습하지 않게 한다. 오클루전 정규화는 기존 TensorRF 손실에 추가되어, 근거리 밀도 값을 최소화하는 L_occ를 도입한다. 실험은 두 가지 데이터셋에서 수행되었다. 첫 번째는 FreeNeRF와 동일한 설정을 따른 Synthesis NeRF 벤치마크이며, 여기서는 8개의 씬(Lego, Chair, Drums, Ficus, Mic, Ship, Materials, Hotdog)에 대해 3~10장의 이미지만 사용했다. Few TensoRF는 평균 PSNR 23.70 dB를 달성했으며, 미세조정(fine‑tune) 단계에서는 24.52 dB까지 끌어올렸다. 이는 재현된 FreeNeRF(15k 이터레이션) 28.02 dB, TensorRF 21.45 dB보다 현저히 높은 수치이다. 특히 학습 시간은 TensorRF와 동일하게 약 15분이며, 미세조정 단계에서는 10분 이하로 추가 향상이 가능했다. 두 번째는 인간 몸체 재구성을 위한 THuman 2.0 데이터셋이다. 여기서는 8장의 이미지만으로 실험했으며, Few TensoRF는 27.37 dB에서 34.00 dB 사이의 PSNR을 기록했다. 이는 기존 NeRF 기반 인간 모델이 요구하는 수백 장의 이미지와 수시간 수준의 학습 시간에 비해 크게 효율적이다. 종합적으로 Few TensoRF는 (1) 텐서 기반 저차원 표현을 통한 메모리·연산 효율성, (2) 동적 주파수 마스크와 오클루전 정규화를 통한 few‑shot 상황에서의 일반화 및 안정성, (3) 10~15분 내의 빠른 학습 시간이라는 세 축을 동시에 만족한다. 이러한 특성은 실시간 AR/VR, 모바일 3D 스캔, 로봇 비전 등 제한된 데이터와 연산 자원을 가진 응용 분야에 매우 유용하다. 향후 연구에서는 더 복잡한 동적 씬, 비정형 카메라 경로, 그리고 텐서 분해 방식의 자동 최적화 등을 탐색함으로써, Few TensoRF의 적용 범위를 더욱 확대할 수 있을 것으로 기대한다.

Few TensoRF 적은 샷 3D 재구성을 위한 고속 텐서 방사장

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기