임의 스케일 초고해상도 복원을 위한 VoxelGrid 기반 ASSR NeRF

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

ASSR-NeRF는 저해상도(LR) 이미지로 학습된 볼륨을 직접 3차원 초고해상도(SR)로 변환하는 프레임워크이다. 2D 사전학습 이미지 SR 모델에서 추출한 저수준 텍스처 특징을 교사‑학생 방식으로 3D voxel grid에 증류하고, 밀도·거리 인식 어텐션을 적용한 VoxelGridSR 모듈이 임의 스케일에서 다중 뷰 일관성을 유지하며 세부 디테일을 복원한다. 다양한 장면에 대해 사전 학습된 후, 새로운 장면에도 LR 뷰만으로 바로 적용 가능하다.

상세 분석

본 논문은 NeRF 기반 고해상도 뷰 합성(HRNVS)의 근본적인 한계, 즉 저해상도 입력으로부터 재구성된 라디언스 필드가 고해상도 렌더링 시 디테일이 소실되는 문제를 해결하고자 한다. 기존의 이미지 단일 초고해상도(SISR) 기법을 뷰별로 적용하면 다중 뷰 일관성이 깨지는 반면, NeRF‑SR 계열은 HR 레퍼런스 뷰가 필요하거나 스케일이 고정된다는 제약이 있다. ASSR‑NeRF는 이러한 제약을 동시에 해소한다. 핵심 아이디어는 두 단계로 구성된다. 첫째, 2D 이미지 SR 모델(본 연구에서는 RDN 기반)을 교사 네트워크로 활용해 저수준 텍스처와 디테일 정보를 추출한다. 이를 학생 네트워크인 3D voxel grid에 정규화된 손실(L_feat)과 사진학적 손실(L_photo)을 동시에 최소화함으로써, 모든 장면의 voxel feature가 동일한 잠재 공간에 정렬된 ‘증류된 특징 필드’를 만든다. 이렇게 하면 VoxelGridSR이 다양한 장면에 대해 동일한 입력 분포를 기대할 수 있어 일반화가 가능해진다. 둘째, VoxelGridSR 모듈은 query point의 특징을 주변 8개의 voxel(특징, 밀도, 위치 오프셋)과 결합해 density‑distance‑aware attention을 수행한다. Q, K, V는 각각 MLP_q, MLP_k, MLP_v에 의해 변환되며, 어텐션 가중치는 밀도와 거리 정보를 반영해 가까운 고밀도 영역에 더 큰 비중을 둔다. 이 과정은 연속적인 3D 좌표에 대해 임의 스케일로 적용 가능하므로, 기존 NeRF의 고정 해상도 제한을 뛰어넘는다. 최종적으로 정제된 특징은 사전 학습된 디코더 D에 의해 RGB 색상으로 변환된다. 전체 파이프라인은 DVGO와 같은 voxel‑grid 기반 빠른 렌더링 구조 위에 구축돼, MLP 호출을 최소화하면서도 고품질 SR을 실현한다. 실험에서는 PSNR/SSIM 등 정량 지표와 시각적 디테일 복원 측면에서 기존 NeRF‑SR, Super‑NeRF, CROP 등을 크게 앞선 성능을 보였으며, 특히 HR 레퍼런스 없이도 다양한 업스케일 팩터(2×~8×)를 자유롭게 적용할 수 있었다. 이처럼 ASSR‑NeRF는 3D 공간에서의 텍스처 증강을 통해 다중 뷰 일관성을 유지하면서도 임의 스케일 초고해상도 렌더링을 가능하게 하는 혁신적인 접근법이다.

임의 스케일 초고해상도 복원을 위한 VoxelGrid 기반 ASSR NeRF

초록

상세 분석

댓글 및 학술 토론

의견 남기기