DrivingGen 자율주행 생성 비디오 월드 모델 종합 벤치마크
📝 원문 정보
- Title: DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving
- ArXiv ID: 2601.01528
- 발행일: 2026-01-04
- 저자: Yang Zhou, Hao Shao, Letian Wang, Zhuofan Zong, Hongsheng Li, Steven L. Waslander
📝 초록 (Abstract)
비디오 생성 모델은 복잡한 장면의 시간적 변화를 모델링함으로써 에이전트가 미래를 상상할 수 있게 하는 세계 모델의 한 형태로, AI 분야에서 가장 흥미로운 연구 영역 중 하나로 떠오르고 있다. 자율주행에서는 이러한 비전이 ‘주행 세계 모델’이라는 형태로 구현되어, 자율차와 주변 에이전트의 미래를 생성함으로써 대규모 시뮬레이션, 위험 상황에 대한 안전한 테스트, 풍부한 합성 데이터 생성을 가능하게 한다. 그러나 현재 연구는 체계적인 벤치마크가 부재한 상태다. 기존 평가 방법은 일반 비디오 메트릭에 의존해 안전‑중심적인 영상 요소를 간과하고, 궤적 타당성을 정량화하지 않으며, 시간·에이전트 수준의 일관성을 평가하지 않는다. 또한, 자율차의 행동을 제어하기 위한 이고(ego) 조건부 제어성도 무시된다. 데이터 측면에서도 실제 배포에 필요한 다양한 날씨, 시간대, 지역, 복합적인 주행 동작을 포괄하지 못한다. 이러한 문제를 해결하고자, 우리는 최초의 종합 벤치마크인 DrivingGen을 제안한다. DrivingGen은 기존 주행 데이터와 인터넷 규모의 비디오를 결합해 다양한 환경을 포함한 평가 데이터셋을 구축하고, 시각적 현실감, 궤적 타당성, 시간적 일관성, 제어성을 동시에 측정하는 새로운 메트릭을 제공한다. 14개의 최신 모델을 평가한 결과, 일반 비디오 생성 모델은 시각적으로 우수하지만 물리 법칙을 위배하고, 주행 전용 모델은 움직임을 현실적으로 재현하지만 시각 품질이 뒤처지는 명확한 트레이드오프가 드러났다. DrivingGen은 신뢰성 있고 제어 가능한 주행 세계 모델 개발을 촉진하여, 확장 가능한 시뮬레이션, 계획, 데이터 기반 의사결정을 지원한다.💡 논문 핵심 해설 (Deep Analysis)
DrivingGen 논문은 현재 자율주행 분야에서 급증하고 있는 ‘생성 비디오 세계 모델’ 연구의 평가 체계가 부재함을 정확히 짚어낸다. 기존 벤치마크가 주로 PSNR, SSIM, LPIPS와 같은 전통적인 비디오 품질 지표에 의존하는데, 이러한 지표는 픽셀 수준의 차이를 정량화할 뿐, 자율주행에 필수적인 물리적 일관성이나 안전성을 반영하지 못한다. 예를 들어, 차량이 갑자기 사라지거나 보행자가 비현실적인 속도로 움직이는 경우, 시각적으로는 높은 SSIM을 기록하더라도 실제 주행 시나리오에서는 치명적인 오류가 된다. 논문은 이러한 한계를 극복하기 위해 네 가지 축을 제시한다. 첫째, **시각적 현실감**을 평가하면서도 객체 경계와 텍스처 디테일을 강조하는 새로운 메트릭을 도입한다. 둘째, **궤적 타당성**을 정량화하기 위해 차량·보행자·자전거 등 각 에이전트의 3‑D 궤적을 추출하고, 물리 법칙(가속도·속도 제한·충돌 방지) 위반 여부를 점수화한다. 셋째, **시간적·에이전트 수준 일관성**을 측정하기 위해 프레임 간 움직임 흐름과 에이전트 간 상호작용(예: 차선 변경 시 앞차와의 거리 유지)을 평가한다. 넷째, **제어성**을 검증하기 위해 이고 차량의 초기 상태·속도·조향 명령을 입력으로 주었을 때, 모델이 해당 조건을 정확히 반영해 미래 프레임을 생성하는지를 측정한다.데이터 측면에서 DrivingGen은 기존의 nuScenes, Waymo Open Dataset 등 고품질 라벨링된 주행 데이터와, YouTube‑8M 등 인터넷에서 수집한 방대한 비디오를 결합해 날씨(맑음, 비, 눈), 조명(낮, 황혼, 야간), 도로 유형(고속도로, 도시 거리, 교차로) 및 복합적인 운전 행동(차선 변경, 급정거, 회전) 등을 포괄한다. 이렇게 다변량 데이터를 확보함으로써 모델이 실제 서비스 환경에서 마주할 ‘롱테일’ 상황을 재현할 수 있다.
실험 결과는 흥미로운 트레이드오프를 보여준다. 비전 분야에서 일반적으로 사용되는 텍스트‑투‑비디오 모델(DALL‑E 3, Imagen Video 등)은 시각적 디테일이 뛰어나지만, 물리적 제약을 무시해 차량이 부자연스럽게 움직이거나 도로 경계 밖으로 벗어나는 현상이 빈번했다. 반면, 자율주행 전용으로 설계된 모델(예: BEV‑Fusion 기반 시뮬레이터, CARLA‑style GAN)은 궤적과 물리 일관성에서는 높은 점수를 받았지만, 조명 변화나 날씨 효과를 표현하는 데 한계가 있었다. 이러한 결과는 향후 연구가 ‘시각‑물리‑제어’ 삼위일체를 동시에 만족시키는 통합 아키텍처로 나아가야 함을 시사한다.
또한, 논문은 메트릭의 상관관계를 분석해 인간 평가와의 일치도를 검증한다. 특히, 궤적 타당성 점수와 인간 평가 점수 간의 피어슨 상관계수가 0.78로 가장 높았으며, 이는 물리적 일관성이 인간이 느끼는 ‘현실감’에 큰 영향을 미친다는 것을 의미한다. 반면, 기존 PSNR 기반 지표는 인간 평가와의 상관관계가 0.42에 불과했다.
마지막으로, DrivingGen은 오픈소스 코드와 평가 서버를 제공해 연구 커뮤니티가 동일한 조건에서 모델을 비교할 수 있게 한다. 이는 ‘재현성’과 ‘투명성’이라는 과학적 기본 원칙을 강화하고, 산업계와 학계가 공동으로 안전하고 신뢰할 수 있는 자율주행 시뮬레이션 생태계를 구축하는 발판이 될 것이다.
요약하면, DrivingGen은 데이터 다양성, 평가 메트릭의 다차원성, 그리고 오픈 평가 인프라를 결합해 현재의 한계를 극복하고, 향후 생성 기반 주행 시뮬레이션 연구의 로드맵을 제시한다.