다중뷰 확산 기반 실내 장면 합성 시스템 MVRoom

초록

본 논문에서는 거친 3D 레이아웃을 조건으로 활용하는 다중뷰 확산 기반 실내 장면 합성 파이프라인인 MVRoom을 제안한다. MVRoom은 3D 레이아웃을 전 과정에 걸쳐 활용하여 다중뷰 일관성을 보장하는 두 단계 설계를 갖는다. 1단계에서는 3D 레이아웃과 이미지 기반 조건 신호를 효과적으로 연결하는 새로운 표현 방식을 도입해 다중뷰 생성을 위한 일관된 입력을 만든다. 2단계에서는 이미지‑조건 다중뷰 생성을 수행하며, 레이아웃 인식 에피폴라 어텐션 메커니즘을 도입해 확산 과정 중 다중뷰 일관성을 강화한다. 또한, 텍스트‑투‑씬 생성을 지원하기 위해 다중뷰 생성을 재귀적으로 수행하는 반복 프레임워크를 제시하여 객체 수와 장면 복잡도가 다양한 3D 씬을 생성한다. 실험 결과, 제안 방법이 정량·정성 모두에서 최신 최첨단 방법들을 능가하며 고품질·제어 가능한 3D 장면 생성을 달성함을 보였다. 또한, 각 구성 요소의 효과를 입증하는 Ablation 연구도 수행하였다.

상세 요약

MVRoom은 현재 실내 장면의 다중뷰 합성(NVS) 분야에서 가장 큰 과제 중 하나인 “다중 카메라 뷰 간의 일관성 유지”와 “사용자 의도에 따른 정밀 제어”를 동시에 해결하려는 시도이다. 기존의 이미지‑투‑이미지 변환 기반 방법이나 단일 뷰 확산 모델은 각각 뷰 간 불일치 혹은 3D 구조에 대한 제한된 제어 능력이라는 한계를 가지고 있었다. MVRoom은 이러한 한계를 극복하기 위해 두 가지 핵심 전략을 채택한다.

첫 번째는 3D 레이아웃 기반 조건화이다. 저해상도 혹은 거친 형태의 3D 레이아웃(예: 방 구조, 객체 위치·크기)을 입력으로 받아, 이를 2D 이미지 공간의 조건 신호와 연결한다. 논문에서는 이를 위해 “레이아웃‑투‑특징 매핑”과 “멀티‑스케일 피처 융합”이라는 새로운 표현 방식을 제안한다. 이 과정에서 레이아웃 정보를 정규화하고, 각 뷰의 카메라 파라미터와 결합해 뷰‑별 조건 텐서를 생성한다. 결과적으로 확산 모델은 각 뷰마다 동일한 3D 구조를 공유하면서도 시점에 맞는 세부 묘사를 학습할 수 있다.

두 번째는 레이아웃 인식 에피폴라 어텐션 메커니즘이다. 확산 과정에서 노이즈를 점진적으로 제거할 때, 각 픽셀의 업데이트는 해당 픽셀과 에피폴라 라인 상의 다른 뷰 픽셀 간 상관관계를 고려한다. 여기서 레이아웃 정보는 에피폴라 라인의 가시성·우선순위를 조정하는 가중치로 활용된다. 즉, 물체가 가려지는 경우나 깊이 차이가 큰 경우에도 어텐션이 적절히 억제·강화되어, 최종 이미지 간에 기하학적 일관성이 크게 향상된다.

또한, 재귀적 다중뷰 생성 프레임워크를 도입해 텍스트 프롬프트만으로 복잡한 실내 씬을 단계적으로 구축한다. 초기에는 방 구조와 주요 객체만 배치하고, 이후 반복 단계에서 추가 객체를 삽입하거나 배치를 미세 조정한다. 이 과정은 각 단계마다 MVRoom의 두 단계 파이프라인을 재사용함으로써, 기존 3D 생성 파이프라인에서 흔히 발생하는 “전 단계 결과 손실” 문제를 최소화한다.

실험에서는 합성된 뷰들의 PSNR, SSIM, LPIPS 등 정량적 지표와 사용자 설문을 통한 정성적 평가에서 기존 SOTA 모델(예: DreamFusion, Zero‑1‑to‑3)보다 월등히 높은 점수를 기록했다. 특히, 복잡한 장면(다중 가구·조명·반사 포함)에서도 에피폴라 어텐션이 뷰 간 색상·조명 불일치를 크게 감소시킨 것이 눈에 띈다. Ablation 연구에서는 (1) 레이아웃‑조건화 없이 단순 이미지 조건만 사용했을 때 일관성 급감, (2) 에피폴라 어텐션을 제거했을 때 시점 간 기하학적 오류가 증가함을 확인하였다.

하지만 몇 가지 제한점도 존재한다. 첫째, 레이아웃 입력이 거칠수록 세부 디테일 재현에 한계가 있다. 둘째, 현재 구현은 실시간 응용에 적합하지 않을 정도로 연산 비용이 높으며, 특히 에피폴라 어텐션은 뷰 수가 늘어날수록 O(N²) 복잡도를 가진다. 향후 연구에서는 레이아웃 정밀도를 자동으로 향상시키는 사전 학습 모듈과, 효율적인 어텐션 근사 기법을 도입해 실시간 인터랙티브 NVS로 확장하는 것이 과제로 남는다. 전반적으로 MVRoom은 3D 레이아웃을 중심으로 한 다중뷰 확산 모델 설계라는 새로운 패러다임을 제시하며, 향후 실내 AR/VR 콘텐츠 제작, 로봇 시뮬레이션, 건축 시각화 등 다양한 분야에 큰 파급 효과를 기대할 수 있다.

초록

상세 요약

📜 논문 원문 (영문)