통합 운전 세계 모델 UniDWM: 다면적 표현 학습으로 4D 인식·예측·계획을 하나의 잠재 공간에 통합
초록
UniDWM은 정적·동적 인코더와 조건부 확산 트랜스포머 디코더를 결합해, 영상 입력만으로 3D 기하·시각·에고 모션을 복원하고 미래 장면 변화를 예측하는 통합 잠재 세계 표현을 학습한다. VAE·InfoVAE 이론에 기반한 ELBO 설계와 SIGReg 정규화로 정보 보존과 사전 일치를 동시에 달성한다. 실험은 NAVSIM에서 경로 계획, 4D 재구성, 4D 생성 과제에서 기존 방법보다 우수한 성능을 보이며, 하나의 모델이 인식·예측·계획을 일관되게 지원함을 입증한다.
상세 분석
UniDWM은 자율주행 시스템이 직면한 “인식‑예측‑계획” 파이프라인의 단절 문제를 근본적으로 해결하고자 설계된 통합 세계 모델이다. 핵심 아이디어는 다면적(latent) 세계 표현을 하나의 연속적인 잠재 공간에 매핑함으로써, 정적(기하·텍스처)과 동적(에고 모션·에이전트 움직임) 정보를 동시에 인코딩하는 것이다. 이를 위해 저자는 두 단계의 아키텍처를 제시한다.
-
Joint Reconstruction 단계에서는 정적 인코더와 동적 인코더가 병렬·교차 작용한다. 정적 인코더는 사전 학습된 이미지 백본을 고정시켜 프레임별 시점 일관성을 확보하고, 동적 인코더는 공간‑시간 어텐션(SpatialAttn, TemporalAttn) 레이어를 교차 쌓아 시퀀스 전반에 걸친 움직임 흐름을 캡처한다. 이렇게 얻어진 잠재 텐서 z는 (시간, 토큰, 채널) 차원을 유지하면서, 모달리티‑불변하고 시간‑연속적인 특성을 갖는다.
-
Decoupled Decoder는 z를 각각의 복원 목표(깊이·포인트, RGB, 에고 포즈)로 투사한다. 이는 각 모달리티가 요구하는 출력 형식에 맞게 설계된 별도 디코더 덕분에, 하나의 잠재 표현이 여러 물리적 속성을 동시에 재현하도록 강제한다.
이후 Collaborative Generation 단계에서는 조건부 확산 트랜스포머(DiT)를 활용해 미래 시점의 z를 샘플링한다. DiT는 공간‑시간 어텐션 블록을 교대로 배치한 구조로, 현재 잠재 상태와 시계열 마스크 M를 입력받아 시간 순서대로 미래 토큰을 생성한다. 이렇게 생성된 zₜ₊₁는 동일한 디코더를 통해 4D 장면(기하·시각·동작)을 재구성함으로써, 예측과 생성을 동일한 파이프라인에서 수행한다.
이론적 측면에서 저자는 UniDWM을 VAE 변형으로 정식화한다. 기본 ELBO(Equation 4)는 다중 관측 재구성을 포함하지만, 복잡한 고차원 데이터에 대해 정보 손실이 발생할 위험이 있다. 이를 보완하기 위해 InfoVAE 아이디어를 차용한 손실(Equation 5)을 도입하고, 정규화 항으로 최신 SIGReg(분포 차이 검정 기반) 를 사용한다. 이 설계는 (1) 재구성 정확도, (2) 잠재 분포와 사전 간의 KL·MMD 차이 최소화, (3) 잠재 변수와 입력 사이의 상호 정보 보존을 동시에 최적화한다는 점에서 의미가 크다.
실험에서는 NAVSIM 시뮬레이터를 활용해 세 가지 다운스트림 태스크를 평가한다. Trajectory Planning에서는 잠재 공간에서 직접 샘플링된 미래 에고 포즈를 이용해 충돌 회피와 경로 최적화를 수행했으며, 기존 BEV‑기반 혹은 이미지‑중심 모델 대비 성공률이 7~12% 상승했다. 4D Reconstruction에서는 깊이·포인트·RGB 재구성 오류가 각각 15%, 12%, 10% 정도 감소했으며, 이는 정적·동적 인코더가 서로 보완적으로 학습된 결과로 해석된다. 4D Generation에서는 조건부 확산을 통해 다양한 날씨·시간대·교통 상황을 시뮬레이션했을 때, FID와 LPIPS 지표가 기존 Diffusion‑BEV 모델보다 현저히 낮았다.
전체적으로 UniDWM은 통합된 잠재 세계 모델이라는 새로운 패러다임을 제시한다. 정적·동적 인코더와 조건부 확산 디코더의 조합은 기존 모듈식 파이프라인에서 발생하던 오류 전이와 데이터 라벨 의존성을 크게 완화한다. 또한 VAE‑InfoVAE 기반의 ELBO 설계와 SIGReg 정규화는 이론적 타당성을 부여함으로써, 향후 다른 센서(라이다·레이더)와의 멀티모달 확장에도 적용 가능성을 열어준다.
댓글 및 학술 토론
Loading comments...
의견 남기기