방 규모 3D 환경을 위한 생성적 조명 변환 GR3EN
초록
GR3EN은 기존 역렌더링 기반 방법의 한계를 넘어, 사전 학습된 비디오‑투‑비디오 확산 모델을 이용해 방 규모 3D 씬을 원하는 조명 조건으로 직접 재조명한다. 3D 재구성 → 비디오 렌더링 → 조명 변환 모델 → 3D 디스틸레이션의 파이프라인으로, 별도의 재질·깊이·노멀 정보 없이도 고품질의 새로운 뷰와 조명을 생성한다.
상세 분석
본 논문은 대규모 실내 환경의 3D 재구성을 조명 조건만으로 자유롭게 변환할 수 있는 새로운 프레임워크 GR3EN을 제안한다. 기존의 역렌더링 기반 접근법은 재질, 기하, 조명이라는 세 요소를 동시에 추정해야 하는 고차원 비선형 문제에 직면해, 라미베르 반사나 전역 조명 같은 단순화 가정을 강제하고 결국 포토리얼리즘에 한계를 보였다. 최근 이미지·비디오 확산 모델을 활용한 2D 조명 변환은 이러한 역문제의 필요성을 회피했지만, 3D 씬 전체에 일관된 조명 변화를 제공하지 못한다는 제약이 있었다.
GR3EN은 두 단계의 핵심 아이디어로 이 문제를 해결한다. 첫째, 사전 학습된 대규모 비디오‑투‑비디오 확산 모델(WAN 2.2 TI2V‑5B)을 방 실내 조명에 특화하도록 파인튜닝한다. 입력 비디오는 3D 재구성(NeRF 혹은 3D Gaussian Splatting)에서 렌더링된 카메라 경로를 따라 생성되며, 조명 조건은 픽셀‑단위 RGB 값(조명 색·강도)과 외부 햇빛을 나타내는 스칼라 3값으로 구성된 ‘조명 비디오’ M으로 제공된다. 저자는 기존의 채널 결합 방식보다 시간 차원에 로터리 포지셔널 인코딩을 적용한 결합이 self‑attention을 통해 조명 정보와 장면 콘텐츠를 효과적으로 분리·통합한다는 실험적 근거를 제시한다.
둘째, 조명 변환된 비디오를 다시 3D 표현으로 ‘디스틸레이션’한다. 여기서는 원본 3D 모델을 목표 비디오와 일치하도록 미세 조정하는 방식으로, 기존 NeRF 기반 재구성에 고정된 라이트맵이나 재질 파라미터를 재학습할 필요 없이 비디오의 색·조명 정보를 직접 반영한다. 이 과정은 고해상도 뷰 합성을 지원하며, 기존 3D 재구성 파이프라인에 최소한의 추가 연산만을 요구한다.
데이터 측면에서 저자는 Infinigen을 활용해 300여 개 실내 씬을 30가지 조명 조건으로 렌더링, 총 108 000개의 81프레임 비디오를 구축하였다. ‘One‑Light‑At‑a‑Time’(OLAT) 방식으로 각 광원을 개별적으로 켜고 끈 이미지들을 저장해, 선형 조합을 통해 임의의 목표 조명을 합성할 수 있게 함으로써 학습 시 광원 별 색·강도 제어를 자연스럽게 구현한다. 또한 학습 시 노이즈 스케줄러를 고노이즈 단계에 편중시켜 전역 조명 일관성을 빠르게 학습하도록 설계하였다.
실험 결과, 합성 데이터와 실제 캡처 데이터 모두에서 GR3EN은 기존 2D 확산 기반 조명 변환, NeRF 기반 역렌더링, 객체 수준 3D 조명 변환(Neural Gaffer, IllumNeRF 등) 대비 높은 PSNR/SSIM 및 시각적 품질을 보였다. 특히 복잡한 실내 그림자·반사·광원 간 상호작용을 정확히 재현하면서도, 새로운 카메라 뷰에서도 조명 일관성을 유지한다는 점이 큰 강점이다. 한계점으로는 비디오‑투‑비디오 모델의 프레임 수 제한으로 인해 매우 넓은 씬을 완전히 커버하려면 카메라 경로 설계가 필요하고, 실시간 인터랙티브 편집에는 아직 최적화가 부족하다는 점을 언급한다.
요약하면, GR3EN은 “역렌더링을 회피하고, 확산 모델을 조명 변환에 직접 활용한 뒤, 결과를 3D로 다시 주입하는” 혁신적인 파이프라인을 제시함으로써, 방 규모 실내 씬의 자유로운 조명 편집과 고품질 뷰 합성을 가능하게 만든다.
댓글 및 학술 토론
Loading comments...
의견 남기기