통합 이해 생성 계획으로 구현하는 자율주행
초록
UniUGP는 사전 학습된 비전‑언어 모델과 비디오 생성 모델을 결합한 하이브리드 전문가 구조를 통해 장면 이해, 미래 영상 생성, 궤적 계획을 하나의 프레임워크로 통합한다. 다중 프레임 영상과 자연어 명령을 입력으로 받아 체인‑오브‑생각(CoT) 기반 추론, 물리적으로 일관된 궤적, 그리고 시각적 인과 검증이 가능한 미래 영상을 동시에 출력한다. 4단계 점진적 학습 전략과 장기·희귀 시나리오를 위한 특수 데이터셋을 활용해 인식·추론·결정 전반에서 최첨단 성능을 달성한다.
상세 분석
UniUGP는 기존 VLA(vision‑language‑action)와 월드 모델의 장점을 동시에 취하려는 시도로, 세 가지 전문가(Understanding, Planning, Generation)를 Mixture‑of‑Transformers(MoT) 기반의 하이브리드 아키텍처에 배치한다. Understanding 전문가에는 최신 멀티모달 대형 언어 모델인 Qwen2.5‑VL을 백본으로 사용해 텍스트 명령과 이미지 시퀀스를 정렬된 토큰(x_und)으로 변환하고, 다음 토큰 예측을 통해 인과적 추론을 수행한다. Planning 전문가에서는 흐름 매칭(flow‑matching) 방식을 차용해 노이즈가 섞인 행동 a_τ를 역전시켜 연속적인 속도 벡터를 예측한다. 이때 이해 전문가의 은닉 상태와 결합된 행동 임베딩을 조건으로 사용해 물리적 일관성을 강화한다. Generation 전문가에서는 DiT 기반 비디오 디퓨전 모델을 활용해 미래 프레임을 생성한다. 이해와 계획 전문가에서 얻은 은닉 상태와 행동 임베딩을 조건으로 넣어, 시각적 인과 관계가 반영된 고품질 영상을 만든다.
학습은 네 단계로 진행된다. 1단계에서는 다양한 공개 데이터셋( nuScenes, Lyft 등)과 저자 자체 구축한 장기·희귀 시나리오 데이터(예: 작은 장애물, 사고 관계)로 기본 장면 이해와 객체·관계 라벨링을 학습한다. 2단계에서는 흐름 매칭을 이용해 행동 노이즈를 복원함으로써 물리 기반 궤적 예측 능력을 강화한다. 3단계에서는 CoT 라벨이 포함된 질문‑응답 데이터를 사용해 언어 기반 추론 능력을 심화하고, 4단계에서는 이해·계획·생성 전문가를 동시에 fine‑tune해 다중 모달 간의 인과 정렬을 최적화한다. 손실 함수는 L_und(언어 모델 로그우도), L_plan(행동 복원 L2), L_gen(비디오 복원 L2) 세 항목을 가중합해 각각의 일관성을 동시에 보장한다.
실험 결과, UniUGP는 기존 VLA 모델(DriveLM, AutoVLA 등)과 최신 월드 모델(Epona, OccWorld) 대비 인식 정확도, CoT 논리 일관성, 궤적 평활도, 그리고 미래 영상의 시각적 품질 모두에서 유의미하게 상위에 위치한다. 특히 장기·희귀 상황(예: 도로에 갑작스러운 작은 장애물, 비정상적인 교통 신호)에서 일반화 성능이 크게 향상되었으며, 인간 명령에 따른 궤적 수정 능력도 뛰어나다.
한계점으로는 대규모 비디오 생성 모델의 연산 비용이 높아 실시간 적용에 제약이 있으며, 현재는 주로 GPU 클러스터(8노드×8GPU)에서 학습·추론한다는 점이다. 또한, 생성된 영상의 물리적 정확성을 완전히 보장하기 위해서는 추가적인 시뮬레이션 기반 검증이 필요할 것으로 보인다.
댓글 및 학술 토론
Loading comments...
의견 남기기