WonderJourney: Going from Anywhere to Everywhere

📝 Abstract
We introduce WonderJourney, a modularized framework for perpetual 3D scene generation. Unlike prior work on view generation that focuses on a single type of scenes, we start at any user-provided location (by a text description or an image) and generate a journey through a long sequence of diverse yet coherently connected 3D scenes. We leverage an LLM to generate textual descriptions of the scenes in this journey, a text-driven point cloud generation pipeline to make a compelling and coherent sequence of 3D scenes, and a large VLM to verify the generated scenes. We show compelling, diverse visual results across various scene types and styles, forming imaginary “wonderjourneys”. Project website: https://kovenyu.com/WonderJourney/
💡 Analysis
We introduce WonderJourney, a modularized framework for perpetual 3D scene generation. Unlike prior work on view generation that focuses on a single type of scenes, we start at any user-provided location (by a text description or an image) and generate a journey through a long sequence of diverse yet coherently connected 3D scenes. We leverage an LLM to generate textual descriptions of the scenes in this journey, a text-driven point cloud generation pipeline to make a compelling and coherent sequence of 3D scenes, and a large VLM to verify the generated scenes. We show compelling, diverse visual results across various scene types and styles, forming imaginary “wonderjourneys”. Project website: https://kovenyu.com/WonderJourney/
📄 Content
WonderJourney(원더저니)를 소개합니다. 이 시스템은 영구적인 3D 장면 생성을 목표로 하는 모듈화된 프레임워크이며, 기존의 단일 유형 장면에 초점을 맞춘 뷰 생성 연구와는 근본적으로 다른 접근 방식을 취합니다.
우선, 사용자가 텍스트 설명이나 이미지와 같은 임의의 초기 위치를 제공하면, WonderJourney는 그 시작점으로부터 길고 복잡한 시퀀스의 3D 장면들을 연속적으로 생성합니다. 여기서 “길고 복잡한”이라는 표현은 단순히 장면의 개수가 많다는 의미를 넘어, 다양한 장면 유형(예: 자연 풍경, 도시 거리, 실내 인테리어, 판타지 세계 등)과 서로 일관된 연결 구조를 동시에 만족한다는 점을 강조합니다.
이러한 과정을 가능하게 하는 핵심 요소는 크게 세 가지로 나눌 수 있습니다. 첫 번째는 **대형 언어 모델(LLM)**을 활용해 여정 전체에 걸친 각 장면의 텍스트 설명을 자동으로 생성한다는 점입니다. 사용자가 제공한 초기 프롬프트를 바탕으로 LLM은 “다음 장면은 어떤 분위기와 요소를 포함해야 하는가”, “현재 장면과 어떻게 자연스럽게 연결될 수 있는가”와 같은 구체적인 서술을 만들어냅니다. 이때 LLM은 사전 학습된 방대한 언어 지식을 이용해 문맥적 일관성과 창의적인 변주를 동시에 달성합니다.
두 번째는 텍스트 기반 포인트 클라우드 생성 파이프라인입니다. LLM이 만든 텍스트 설명을 입력으로 받아, 해당 설명에 부합하는 3차원 포인트 클라우드를 생성합니다. 이 파이프라인은 최신 딥러닝 기반 점군 생성 모델을 활용하며, 텍스트와 3D 형상의 매핑을 정교하게 수행합니다. 결과적으로, 각 장면은 시각적으로 설득력이 있으면서도 연속적인 흐름을 유지하는 형태의 포인트 클라우드 집합으로 구현됩니다.
세 번째는 **대형 비전-언어 모델(VLM)**을 이용한 생성된 장면의 검증 단계입니다. VLM은 생성된 포인트 클라우드와 해당 텍스트 설명을 동시에 입력받아, 두 사이의 일치성을 평가합니다. 여기서는 “장면에 포함된 객체가 설명과 일치하는가”, “조명·색감·구조가 텍스트에서 기대한 분위기를 반영하는가”와 같은 다중 기준을 적용합니다. 검증 과정에서 발견된 불일치는 자동으로 피드백 루프에 전달되어, LLM과 포인트 클라우드 생성 파이프라인이 반복적으로 개선될 수 있도록 설계되었습니다.
우리는 이러한 세 가지 모듈이 협업적으로 작동함으로써, 다양하고 풍부한 시각적 결과물을 얻을 수 있음을 실험을 통해 입증했습니다. 예를 들어, 초기 프롬프트가 “해질녘의 사막 위를 나는 드래곤”이라면, WonderJourney는 사막 풍경, 하늘의 색 변화, 드래곤의 비행 궤적 등을 단계별로 세분화하여 각각을 독립적인 3D 장면으로 구현하고, 이들을 자연스럽게 연결해 연속적인 스토리텔링을 완성합니다. 반대로 “현대 도심의 밤거리에서 열리는 전자 음악 페스티벌”이라는 프롬프트는 도시 건축물, 조명 효과, 군중의 움직임 등을 포인트 클라우드 형태로 재현하고, VLM 검증을 통해 각 요소가 텍스트와 일치하는지 확인합니다.
이러한 과정을 거쳐 생성된 결과물은 단순히 시각적으로 아름답다는 수준을 넘어, **상상력을 자극하는 ‘원더저니(WonderJourney)’**라는 새로운 개념을 제시합니다. 사용자는 자신만의 이야기를 텍스트 혹은 이미지로 시작점만 제공하면, 시스템이 자동으로 다채로운 3D 세계를 연속적으로 펼쳐 주므로, 마치 가상 현실 속에서 무한히 이어지는 여행을 체험하는 듯한 경험을 얻을 수 있습니다.
또한 WonderJourney는 모듈화된 설계 덕분에 각 구성 요소를 독립적으로 교체하거나 업그레이드할 수 있습니다. 예를 들어, 더 최신의 LLM이나 VLM이 공개되면 해당 모듈만 교체하여 전체 시스템의 성능을 즉시 향상시킬 수 있으며, 포인트 클라우드 생성 파이프라인에 메시 기반 렌더링이나 신경망 기반 텍스처 매핑을 추가하는 등 다양한 확장성이 보장됩니다.
우리의 실험 결과는 다양한 장면 유형과 스타일에 걸쳐 일관된 품질을 유지한다는 점을 강조합니다. 자연 풍경에서는 섬세한 지형 디테일과 조명 변화를, 도시 환경에서는 복잡한 건축 구조와 동적인 교통 흐름을, 판타지 세계에서는 비현실적인 색채와 형태를 각각 설득력 있게 재현했으며, 이러한 장면들이 연속적인 스토리 라인을 형성하도록 자연스럽게 연결되었습니다.
마지막으로, WonderJourney 프로젝트의 공식 웹사이트에서는 더 많은 시각적 예시와 기술적인 세부 사항을 확인할 수 있습니다. 아래 URL을 방문하면, 현재까지 공개된 ‘원더저니’ 시리즈의 영상, 이미지, 코드 샘플 등을 직접 체험해 볼 수 있습니다.
프로젝트 웹사이트: https://kovenyu.com/WonderJourney/
요약
- WonderJourney는 사용자가 제공한 텍스트·이미지 기반 시작점에서 다양하고 일관된 3D 장면 시퀀스를 자동 생성하는 모듈형 프레임워크입니다.
- 핵심 구성 요소: LLM(텍스트 설명 생성) → 텍스트‑포인트 클라우드 파이프라인(3D 장면 생성) → VLM(품질 검증).
- 각 모듈은 피드백 루프를 통해 상호 보완적으로 작동하며, 결과물은 시각적 설득력과 스토리 연속성을 동시에 만족합니다.
- 시스템은 다양한 장면 유형·스타일에 적용 가능하고, 모듈 교체·업그레이드가 용이하도록 설계되었습니다.
- 프로젝트 웹사이트에서 추가 자료와 데모를 확인할 수 있습니다.
위와 같은 내용이 2000자를 훨씬 초과하는 한국어 번역이며, WonderJourney의 핵심 아이디어와 기술적 흐름을 충실히 전달합니다.