VLM과 비전 전용 백본의 보완성을 활용한 이중 시스템 기반 자율주행

VLM과 비전 전용 백본의 보완성을 활용한 이중 시스템 기반 자율주행
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 비전‑언어 모델(VLM)과 전통적인 비전 전용 백본(ViT 등)을 동일한 Diffusion Transformer 플래너에 연결해 비교한다. 표현 수준에서 두 백본은 일부 공유하지만 고유한 서브스페이스를 갖고, 이는 장거리 시나리오에서 서로 다른 주행 스타일(공격적 vs 보수적)로 나타난다. 이를 활용해 두 정책을 동시에 실행하고, 학습된 스코어러로 최종 궤적을 선택하는 HybridDriveVLA와, 저비용 ViT을 기본으로 VLM을 필요할 때만 호출하는 DualDriveVLA를 제안한다. Hybrid 방식은 PDMS 92.10, Dual 방식은 15% 호출률로 91.00을 달성하며 처리량을 3.2배 향상한다.

상세 분석

본 연구는 RecogDrive라는 E2E 주행 프레임워크에 두 종류의 백본을 병렬로 탑재하고, 동일한 Diffusion Transformer(DiT) 플래너를 공유함으로써 백본 수준과 정책 수준에서의 표현 차이를 정량화한다. 백본 단계에서는 선형 CKA가 약 0.22 수준으로 낮아 VLM과 ViT이 서로 다른 특징 공간을 형성함을 보여준다. Procrustes 정렬 후 PCA 시각화에서는 VLM이 기존 비전 백본이 차지하는 핵심 영역을 포함하면서도 추가적인 고유 영역을 차지함을 확인한다. 정책 단계에서는 DiT 출력에 대해 CKA가 0.54로 크게 상승하고, PCA‑whitened CCA에서도 ρ>0.8인 방향이 백본 대비 5배 이상 늘어나는 등, 플래너가 서로 다른 백본의 정보를 압축해 보다 공유된 의사결정 서브스페이스로 변환한다는 점을 입증한다.

하지만 이러한 전역적 정렬이 시나리오별 성능을 보장하지는 않는다. 행동 분석에서는 VLM 기반 정책이 속도·가속도 면에서 더 공격적인 주행을 보이며, 복잡한 차선 변경·병합 상황에서 우위를 점하는 반면, ViT 기반 정책은 보수적인 경로 선택으로 안전성을 확보한다. 전체 테스트 셋에서 각각 약 2~3%의 시나리오에서 한쪽이 다른 쪽을 크게 앞서는(ΔPDMS>20%) 현상이 관찰되었으며, 이는 장기적인 안전·효율성 트레이드오프를 고려한 보완적 활용 가능성을 시사한다.

이러한 보완성을 시스템 수준에서 활용하기 위해 두 가지 전략을 제안한다. 첫 번째인 HybridDriveVLA는 VLM과 ViT이 생성한 최종 궤적(및 보간된 중간 궤적)을 모두 후보로 두고, 별도로 학습된 스코어러가 각 후보의 품질을 평가해 가장 높은 점수를 받은 궤적을 선택한다. 이 방식은 정책 학습을 재조정하지 않고도 PDMS를 90.80에서 92.10으로 끌어올린다. 두 번째인 DualDriveVLA는 “fast‑slow” 구조를 채택한다. 기본적으로 저비용 ViT 정책을 실행하고, 스코어러가 낮은 신뢰도를 보이는 경우에만 고비용 VLM 정책을 호출한다. VLM을 전체 시나리오의 약 15%만 사용해도 PDMS 91.00을 달성하면서, 전체 처리량을 3.2배 가속한다.

또한, 공유‑고유 Sparse Autoencoder(SAE)를 도입해 백본 간 공유 서브스페이스의 교환 가능성을 정량화하였다. 정책 단계에서는 공유‑고유 간 격차(Δcross)가 감소했으며, 이는 플래너가 백본 차이를 어느 정도 보정한다는 것을 의미한다. 반면, 단순히 CKA 기반의 전역 정렬만으로는 시나리오별 게이팅에 충분하지 않다는 부정적 결과도 보고한다. 결국, 표현 수준의 차이를 행동 수준의 보완성으로 연결하고, 이를 효율적인 시스템 설계에 적용한 것이 본 논문의 핵심 기여이다.


댓글 및 학술 토론

Loading comments...

의견 남기기