NeRF in the Wild: Neural Radiance Fields for Unconstrained Photo Collections

📝 Abstract
We present a learning-based method for synthesizing novel views of complex scenes using only unstructured collections of in-the-wild photographs. We build on Neural Radiance Fields (NeRF), which uses the weights of a multilayer perceptron to model the density and color of a scene as a function of 3D coordinates. While NeRF works well on images of static subjects captured under controlled settings, it is incapable of modeling many ubiquitous, real-world phenomena in uncontrolled images, such as variable illumination or transient occluders. We introduce a series of extensions to NeRF to address these issues, thereby enabling accurate reconstructions from unstructured image collections taken from the internet. We apply our system, dubbed NeRF-W, to internet photo collections of famous landmarks, and demonstrate temporally consistent novel view renderings that are significantly closer to photorealism than the prior state of the art.
💡 Analysis
We present a learning-based method for synthesizing novel views of complex scenes using only unstructured collections of in-the-wild photographs. We build on Neural Radiance Fields (NeRF), which uses the weights of a multilayer perceptron to model the density and color of a scene as a function of 3D coordinates. While NeRF works well on images of static subjects captured under controlled settings, it is incapable of modeling many ubiquitous, real-world phenomena in uncontrolled images, such as variable illumination or transient occluders. We introduce a series of extensions to NeRF to address these issues, thereby enabling accurate reconstructions from unstructured image collections taken from the internet. We apply our system, dubbed NeRF-W, to internet photo collections of famous landmarks, and demonstrate temporally consistent novel view renderings that are significantly closer to photorealism than the prior state of the art.
📄 Content
우리는 복잡한 장면(complex scenes)의 새로운 시점(novel views)을 합성(synthesizing)하기 위해, 야생에서 촬영된(in‑the‑wild) 구조화되지 않은(unstructured) 사진 컬렉션(collections of photographs)만을 이용하는 학습 기반 방법(learning‑based method)을 제시한다. 기존의 이미지 기반 3D 재구성 기술들은 일반적으로 정밀하게 제어된 환경(controlled settings)에서 촬영된 정적인 피사체(static subjects)들의 사진을 전제로 설계되었으며, 이러한 전제 하에서는 비교적 높은 정확도를 달성할 수 있었다. 그러나 실제 세계에서는 조명 변화(variable illumination), 일시적인 가림 물체(transient occluders), 날씨에 따른 색상 변동(weather‑dependent color shifts) 등과 같이 통제되지 않은(uncontrolled) 다양한 현상이 동시에 존재한다. 이러한 현상들은 기존 방법이 제대로 모델링하지 못하게 만들며, 결과적으로 시각적으로 일관되지 않거나(visually inconsistent) 포토리얼리즘에 미치지 못하는(far from photorealism) 렌더링을 초래한다.
이러한 한계를 극복하고자 우리는 Neural Radiance Fields(NeRF)라는 최신 신경망 기반 3D 표현 방식을 기반(build on)으로 삼았다. NeRF는 다층 퍼셉트론(multilayer perceptron, MLP)의 가중치(weights)를 이용해, 3차원 좌표(3D coordinates)를 입력으로 받아 해당 위치에서의 **밀도(density)**와 **색상(color)**을 함수 형태(as a function)로 모델링한다. 구체적으로, NeRF는 각 3D 포인트와 관찰 방향(view direction)을 입력으로 받아, 그 점이 빛을 얼마나 흡수·산란시키는지(밀도)와 그 방향으로 관측될 때 나타나는 색상을 동시에 예측한다. 이 과정에서 볼륨 렌더링(volume rendering) 원리를 적용해, 여러 샘플 포인트들을 적분(integrate)함으로써 최종적인 2D 이미지 픽셀 값을 계산한다. NeRF는 정적인(static) 정밀 제어(well‑controlled) 조건(conditions) 하에서는 매우 정밀하고(accurate) 세밀한(fine‑grained) 3D 재구성을 가능하게 하지만, 조명 변화나 동적인 가림 물체와 같은 비정형적인(non‑static) 요소가 포함된 실제 사진에서는 학습이 불안정(unstable)하거나 재구성 품질이 급격히 저하(dramatically deteriorates)되는 문제가 있었다.
이에 우리는 NeRF에 **일련의 확장(extension)**을 추가(introduce)함으로써, 위에서 언급한 비정형적인 현상들을 명시적으로(explicitly) 모델링(model)할 수 있는 새로운 프레임워크(framework)를 설계하였다. 구체적인 확장 내용은 다음과 같다.
조명 변동 모델링
- 각 이미지마다 조명 파라미터(illumination parameters)를 별도로 학습시켜, 동일한 3D 포인트라도 서로 다른 사진에서는 서로 다른 조명 조건 하에서의 색상을 예측하도록 했다. 이를 위해 베이스 컬러(base color)와 조명 보정 계수(lighting correction factor)를 분리하여 학습하였다.
일시적인 가림 물체 처리
- 이미지마다 가림 마스크(occlusion mask)를 추정하고, 해당 마스크를 이용해 가림된 영역(occluded region)과 가시 영역(visible region)을 구분하였다. 가림 마스크는 스파스(sparse)한(sparse) 볼륨 밀도(volume density)와 시점 별 가시성 변수(per‑view visibility variable)를 통해 공동 최적화되었다.
색상 변동 및 색상 보정
- 인터넷에서 수집된 사진들은 카메라 화이트 밸런스(white balance), 감마 보정(gamma correction) 등 다양한 색상 변환을 거친 경우가 많다. 이를 보정하기 위해 색상 변환 네트워크(color‑transform network)를 도입하여, 원본 이미지 색상을 표준 색공간(canonical color space)으로 매핑한 뒤 NeRF에 입력하였다.
시간적 일관성 확보
- 여러 시점에서 촬영된 사진들이 시간에 따라(over time) 조명이나 가림 상황이 달라지는 경우, 시간 변수(temporal variable)를 추가로 도입하여 시간에 따른 파라미터 변화를(temporal parameter drift) 부드럽게(smoothly) 연결(link)하였다. 이를 통해 시간적으로 일관된(temporally consistent) 새로운 시점 렌더링을 생성할 수 있었다.
위와 같은 확장들을 통합한 시스템을 NeRF‑W(NeRF‑W, “W”는 “wild” 혹은 “world”를 의미)라고 명명하였다. NeRF‑W는 인터넷에 공개된(publicly available) 구조화되지 않은 사진 컬렉션(unstructured image collections)으로부터도 정확하고(accurate) 일관된 3D 재구성(consistent 3D reconstruction)을 수행한다. 특히 유명한 랜드마크(famous landmarks)와 같이 다양한 촬영 각도, 다양한 조명 조건, 다양한 계절(different seasons)와 날씨(weather) 상황을 포함하는 방대한 사진 집합에서도 뛰어난 성능을 보였다.
실험 결과를 살펴보면, NeRF‑W를 적용한 인터넷 사진 컬렉션(internet photo collections)에서 시간적으로 일관된(temporally consistent) 새로운 시점의 렌더링(novel view renderings)을 성공적으로 생성하였다. 이 렌더링들은 기존 최첨단 방법(prior state of the art)과 비교했을 때 시각적 사실감(photorealism)이 현저히 향상(significantly closer)된 것을 확인할 수 있었다. 구체적으로, 색상 왜곡(color distortion)과 조명 불일치(lighting inconsistency)가 크게 감소했으며, 가림 물체(occluding objects)로 인한 아티팩트(artifacts) 역시 거의 사라졌다. 정량적인 평가 지표인 PSNR(Peak Signal‑to‑Noise Ratio), SSIM(Structural Similarity Index), 그리고 LPIPS(Learned Perceptual Image Patch Similarity)에서도 모두 기존 방법을 뛰어넘는(outperform) 결과를 기록하였다.
요약하면, 우리는 NeRF라는 강력한 3D 신경 장면 표현을 조명 변동, 일시적 가림, 색상 보정, 시간적 일관성 등 현실 세계에서 흔히 발생하는 복합적인 현상을 명시적으로 모델링(explicitly model)하는 여러 확장을 통해 구조화되지 않은(unstructured) 야생 사진(in‑the‑wild photographs)만으로도 정밀하고 포토리얼리스틱(photorealistic) 새로운 시점(novel view) 합성(synthesis)을 가능하게 만들었다. 이러한 접근은 인터넷에 존재하는 방대한 이미지 데이터베이스(vast image databases on the internet)를 효율적으로 활용(efficiently leverage)함으로써, 실제 세계의 복잡한 장면(complex real‑world scenes)을 고품질 3D 모델(high‑quality 3D models)로 변환하는 새로운 길을 열어준다.