원더줌 다중 스케일 3D 세계 생성
📝 원문 정보
- Title: WonderZoom: Multi-Scale 3D World Generation
- ArXiv ID: 2512.09164
- 발행일: 2025-12-09
- 저자: Jin Cao, Hong-Xing Yu, Jiajun Wu
📝 초록 (Abstract)
본 논문에서는 단일 이미지로부터 다중 스케일 3D 세계를 생성하고, 사용자가 원하는 영역을 자유롭게 확대하면서 세밀한 콘텐츠를 추가 생성할 수 있는 인터랙티브 시스템인 WonderZoom을 제안한다. 사용자는 특정 영역을 선택하고 텍스트 프롬프트를 입력함으로써 해당 부분의 고해상도 디테일을 자동으로 보강할 수 있으며, 전체 장면과의 일관성을 유지한다. 논문에서는 SUV의 반짝이는 크롬 범퍼를 예시로 삼아 카메라 이동 및 줌인 과정을 시각화한 세 가지 시퀀스를 제시한다. 추가적인 인터랙티브 뷰어는 보조 자료에 포함되어 있다.💡 논문 핵심 해설 (Deep Analysis)

특히, WonderZoom은 “크로스‑스케일 일관성”을 보장하기 위해 다중 해상도 피라미드 구조를 도입한다. 저해상도 레벨에서 전체 장면의 기하학적 구조를 유지하고, 고해상도 레벨에서는 로컬 디테일을 강화한다. 이때, 각 레벨 간의 피드백 루프를 통해 생성된 디테일이 전체 레이아웃에 반영되며, 역전파를 통한 공동 최적화가 수행된다. 이러한 설계는 사용자가 “SUV의 반짝이는 크롬 범퍼”와 같은 구체적인 프롬프트를 입력했을 때, 해당 부위의 금속성 반사와 미세한 스크래치까지도 물리적으로 일관된 형태로 재현할 수 있게 한다.
실험 결과는 세 가지 줌인 시퀀스를 통해 시각적으로 입증된다. 첫 번째 시퀀스는 전체 차량을 조망한 뒤 점차 범퍼에 집중하며, 두 번째는 범퍼 표면의 미세한 질감을 확대, 세 번째는 범퍼 뒤쪽 구조까지 탐색한다. 각 단계에서 텍스트 프롬프트에 따라 새롭게 생성된 디테일이 기존 이미지와 자연스럽게 융합되는 것을 확인할 수 있다.
하지만 몇 가지 한계점도 존재한…