자연어 지시로 운전하는 비전 언어 액션 모델 Vega

본 논문은 자율주행 시스템에 자연어 지시를 직접 반영할 수 있는 새로운 비전‑언어‑액션 모델인 Vega를 제안한다. 기존의 VLA(vision‑language‑action) 모델들은 주로 장면 설명이나 고수준 의사결정에 언어를 활용했으며, 실제 운전 행동을 지시하는 복합적인 자연어 명령을 처리하는 데 한계가 있었다. 이를 극복하기 위해 저자들은 두 가지 주요 기여를 한다. 첫째, 약 10만 개의 장면에 다양한 운전 지시와 대응 궤적을 부여한 대규모 데이터셋 InstructScene을 구축하였다. 이 데이터는 NAVSIM 시뮬레이터 기반으로 생성되었으며, 강력한 VLM을 이용해 미래 관측과 행동을 설명하는 자연어 지시를 자동으로 생성하고, 규칙 기반 보강을 통해 “앞 차를 추월해 다음 초록불에 맞춘다”와 같은 복합적인 운전 의도를 포함한다. 둘째, 이러한 데이터에 기반해 Vision‑Language‑World‑Action 통합 모델인 Vega를 설계하였다. Vega는 자동회귀와 확산 방식을 결합한 통합 트랜스포머 아키텍처를 사용한다. 입력으로는 과거 T 프레임의 전방 카메라 이미지, 과거 행동 시퀀스, 현재 자연어 지시가 제공된다. 이미지와 행동은 각각 VAE와 SigLIP‑ViT 인코더, 그리고 선형 프로젝션을 통해 동일 차원의 잠재 토큰으로 변환된다. 텍스트는 Qwen2.5 토크나이저로 토큰화된다. 변환된 토큰들은 ‘이미지‑텍스트‑행동’ 순서로 교차 배치되어 하나의 시퀀스로 구성되고, 각 블록에 맞는 어텐션 마스크와 RoPE/시노시달 포지셔널 인코딩이 적용된다. 학습 과정에서는 미래 이미지와 행동을 각각 가우시안 노이즈를 추가해 noisy 버전을 만든 뒤, 모델이 이를 순차적으로 디노이징하도록 한다. 행동 디노이징이 먼저 수행되며, 이는 인과 관계(지시 → 행동 → 시각적 결과)를 명시적으로 학습하게 만든다. 이후 디노이징된 행동을 조건으로 하여 미래 이미지 디노이징을 진행한다. 이러한 공동 학습은 픽셀‑레벨의 풍부한 감독 신호를 제공해, 행동 예측의 희소한 지도 문제를 크게 완화한다. 모델 내부에서는 Mixture‑of‑Transformers(MoT) 구조를 채택해 모달리티별 전용 파라미터 집합을 유지하면서도, 공동 어텐션을 통해 시각·언어·행동 간의 깊은 상호작용을 가능하게 한다. 자동회귀 파이프라인은 텍스트와 이미지 이해에 강점을, 확산 파이프라인은 고품질 이미지·궤적 생성에 강점을 각각 살려, 두 방식을 효율적으로 융합한다. 실험은 NAVSIM 벤치마크에서 수행되었으며, Vega는 기존 VLA 기반 베이스라인 대비 최소 평균 절대 오차(minADE)와 최소 최종 절대 오차(minFDE) 등 계획 정확도 지표에서 현저히 우수한 성능을 보였다. 특히 복합 지시(예: “앞 차를 추월하고 다음 초록불에 맞춰 가속”)에 대해 높은 성공률을 기록했으며, 미래 이미지 예측에서도 시각적 일관성과 디테일을 유지하였다. 이는 픽셀‑레벨 감독이 행동 예측의 일반화 능력을 크게 향상시켰음을 보여준다. 결론적으로 Vega는 시각·언어·세계·액션을 하나의 통합 모델로 다루어, 고차원 자연어 지시를 실시간 주행 행동으로 변환하는 새로운 패러다임을 제시한다. 향후 연구에서는 3D 라벨 의존성을 낮추고, 멀티‑에이전트 상호작용 및 실제 도로 환경에서의 실시간 성능 검증을 통해 실용성을 높이는 방향이 기대된다.

자연어 지시로 운전하는 비전 언어 액션 모델 Vega

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기