꿈을 흐름으로 3D 객체 흐름으로 영상 생성과 오픈월드 조작 연결

Dream2Flow는 3차원 객체 흐름(3D Object Flow)을 활용하여 텍스트 기반 비디오 생성 모델과 오픈월드 물리 기반 조작 시스템을 연결하는 프레임워크이다. 기존 텍스트‑투‑비디오 모델은 시각적 일관성을 확보하기 위해 2D 픽셀 수준의 합성에 의존하지만, 물리적 상호작용을 지원하는 3D 환경에서는 이러한 접근법이 한계가 있다. 본 연구는 먼저

꿈을 흐름으로 3D 객체 흐름으로 영상 생성과 오픈월드 조작 연결

초록

Dream2Flow는 3차원 객체 흐름(3D Object Flow)을 활용하여 텍스트 기반 비디오 생성 모델과 오픈월드 물리 기반 조작 시스템을 연결하는 프레임워크이다. 기존 텍스트‑투‑비디오 모델은 시각적 일관성을 확보하기 위해 2D 픽셀 수준의 합성에 의존하지만, 물리적 상호작용을 지원하는 3D 환경에서는 이러한 접근법이 한계가 있다. 본 연구는 먼저 대규모 텍스트‑투‑비디오 모델인 DreamFusion을 확장해 3D 객체 흐름을 추출하고, 이를 물리 엔진에 전달하여 실제 물체와 유사한 움직임을 재현한다. 추출된 흐름은 시점 변환, 깊이 정규화, 그리고 물리 기반 시뮬레이션을 거쳐 오픈월드 환경에서의 조작 명령으로 변환된다. 실험 결과, Dream2Flow는 기존 방법에 비해 복잡한 동작(예: 물체 회전·굴절·충돌)에서 시각적·물리적 일관성을 크게 향상시켰으며, 사용자 설문에서도 높은 만족도를 얻었다.

상세 요약

Dream2Flow 논문은 최근 급격히 발전하고 있는 텍스트‑투‑비디오 생성 기술과 전통적인 3D 물리 시뮬레이션을 통합하려는 시도로서, 두 분야 사이의 격차를 메우는 중요한 연구이다. 기존의 텍스트‑투‑비디오 모델은 주로 2D 이미지 시퀀스를 생성하고, 프레임 간 일관성을 유지하기 위해 옵티컬 플로우나 시각적 변형을 적용한다. 그러나 이러한 방식은 물리적 제약(중력, 마찰, 충돌 등)을 고려하지 않기 때문에, 실제 로봇 제어나 게임 엔진과 같은 오픈월드 환경에 직접 적용하기 어렵다. Dream2Flow는 이러한 한계를 극복하기 위해 ‘3D 객체 흐름’이라는 새로운 중간 표현을 도입한다. 구체적으로, 먼저 대규모 텍스트‑투‑비디오 모델(DreamFusion 등)을 사용해 입력 텍스트에 대응하는 3D 장면을 생성하고, 그 장면에서 각 객체의 3차원 위치와 회전 변화를 시간축에 따라 추출한다. 이때 얻어지는 흐름은 단순히 픽셀 단위의 옵티컬 플로우가 아니라, 객체 중심의 변위 벡터와 회전 매트릭스로 구성된다.

추출된 3D 객체 흐름은 두 가지 핵심 처리 과정을 거친다. 첫째, 시점 변환(view transformation)과 깊이 정규화를 통해 다양한 카메라 시점에서도 일관된 움직임을 보장한다. 둘째, 물리 엔진(예: Unity PhysX, MuJoCo)으로 전달되어 실제 물리 법칙에 따라 시뮬레이션된다. 이 과정에서 충돌 감지, 마찰 계수 적용, 관성 효과 등이 자동으로 반영되어, 최종적으로는 ‘조작 명령(Manipulation Command)’ 형태로 변환된다. 즉, 사용자는 “빨간 공을 오른쪽으로 굴려라”와 같은 자연어 명령만 입력하면, Dream2Flow가 내부적으로 3D 객체 흐름을 생성·시뮬레이션하고, 해당 명령을 물리 기반 환경에 적용한다.

실험에서는 복잡한 동작 시나리오(예: 물체가 회전하면서 다른 물체와 충돌 후 튕겨 나가는 경우)를 설정하고, 기존 텍스트‑투‑비디오 파이프라인과 비교하였다. 정량적 평가지표로는 PSNR, SSIM, 그리고 물리적 일관성을 측정하는 새로운 ‘Physics Consistency Score’를 도입했으며, Dream2Flow가 모든 지표에서 평균 15% 이상 향상된 결과를 보였다. 정성적 평가에서는 사용자 설문을 통해 시각적 자연스러움과 물리적 현실감 측면에서 4.6/5점(표준편차 0.3)을 획득, 기존 방법 대비 현저히 높은 만족도를 입증했다.

하지만 몇 가지 제한점도 존재한다. 첫째, 3D 객체 흐름을 추출하기 위해서는 고해상도 3D 모델과 충분한 컴퓨팅 자원이 필요해, 실시간 응용에는 아직 부적합하다. 둘째, 현재는 텍스트‑투‑비디오 모델이 생성하는 장면이 비교적 단순한 구조(예: 단일 객체, 제한된 배경)일 때 최적의 성능을 보이며, 복잡한 실내·실외 환경에서는 흐름 추출 정확도가 떨어진다. 셋째, 물리 엔진과의 인터페이스가 특정 플랫폼에 종속적이어서, 다른 엔진으로의 이식성이 낮다.

향후 연구 방향으로는 (1) 경량화된 3D 흐름 추출 네트워크 개발을 통한 실시간 처리, (2) 복합 장면에 대한 흐름 학습을 위한 대규모 멀티모달 데이터셋 구축, (3) 엔진-중립적인 표준 인터페이스 설계, (4) 인간‑로봇 협업 시나리오에 적용하여 자연어 명령 기반 로봇 조작을 구현하는 것이 제시된다. 전반적으로 Dream2Flow는 비디오 생성과 물리 기반 조작을 연결하는 새로운 패러다임을 제시하며, 향후 멀티모달 인공지능과 가상·증강 현실, 로봇공학 분야에 큰 파급 효과를 기대할 수 있다.


📜 논문 원문 (영문)

🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...