AppleVLM 고급 인식과 계획 기반 비전 언어 모델을 활용한 종단형 자율주행

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

AppleVLM은 다중 시점·다중 시간의 RGB 이미지와 포인트클라우드를 변형 트랜스포머로 융합하고, BEV(버드아이뷰) 기반 계획 템플릿을 별도 인코더로 학습한다. 언어 명령과 계획 정보를 Q‑Former로 결합한 뒤, 계층적 Chain‑of‑Thought 방식으로 VLM 디코더를 미세조정해 견고한 주행 웨이포인트를 생성한다. CARLA 벤치마크와 실제 AGV 실험에서 최첨단 성능을 달성하였다.

상세 분석

AppleVLM은 기존 VLM 기반 자율주행 모델이 안고 있던 센서 배치 민감성, 언어 편향, 희귀 상황 처리 부족을 동시에 해결하기 위해 네 가지 핵심 설계를 도입한다. 첫째, 비전 인코더는 RegNet64 백본을 사용해 다중 카메라 RGB와 라이다 포인트클라우드를 각각 2D 피seudo‑이미지로 변환한 뒤, 각 레이어에서 교차‑어텐션(Cross‑Attention)으로 결합한다. 이어서 변형 어텐션(Deformable Attention)을 적용해 시간 축(T)과 시점 축(N) 모두에서 샘플링된 키를 동적으로 선택함으로써, 카메라 위치·해상도 변화에 강인한 특징을 추출한다. 둘째, 계획 전략 인코더는 비전 인코더의 BEV 특징을 입력으로 받아, 사전 정의된 “플래닝 템플릿 토큰”을 생성한다. 이 템플릿은 도로 차선, 교차로, 차선 변경 구역 등 공간 정보를 명시적으로 표현해, 순수 언어 명령이 갖는 위치 모호성을 보완한다. 셋째, Q‑Former 모듈이 비전, 언어, 계획 토큰을 하나의 시퀀스로 정렬·융합하고, 이를 사전 학습된 대형 VLM(예: LLaVA, Janus Pro)의 디코더에 전달한다. 디코더는 계층적 Chain‑of‑Thought(CoT) 학습을 통해 “일반 인식 → 영역 인식 → 주행 제안” 순서로 사고 과정을 모방한다. 특히, 실제 도로에서 수집한 코너케이스 데이터셋을 활용해 CoT를 미세조정함으로써, 보행자 급작스런 횡단·비정상 차량 행동 등 장기적 분포 편차에 대한 일반화 능력을 크게 향상시켰다. 넷째, 전체 학습 파이프라인은 네 단계로 구성된다. (1) 비전 인코더를 BEV 예측 과제로 사전 학습, (2) 고정된 비전 특징을 이용해 플래닝 인코더 학습, (3) 코너케이스와 CoT를 이용한 VLM 디코더 파인튜닝, (4) Q‑Former와 VLM 디코더를 제외한 나머지 모듈을 고정하고 주행 데이터에 대해 엔드‑투‑엔드 행동 복제(Behavior Cloning) 수행한다. 이러한 단계적 고정‑학습 전략은 각 모듈이 독립적으로 최적화되면서도 최종 통합 시 시너지 효과를 발휘하도록 설계되었다. 실험 결과, AppleVLM은 CARLA의 Longest6·NoCrash 두 벤치마크에서 성공률·충돌 회피·차선 유지 지표 모두 기존 최첨단 모델을 능가했으며, 실제 AGV 플랫폼에 배포해 복합 도심·교외 환경에서도 안정적인 웨이포인트 추출과 LQR 기반 제어를 구현했다. 전체적으로, 변형 트랜스포머 기반 시공간 융합, 명시적 BEV 플래닝, CoT 기반 VLM 파인튜닝이라는 세 축이 결합된 구조는 향후 실세계 자율주행 시스템의 확장성과 안전성을 크게 높일 것으로 기대된다.

AppleVLM 고급 인식과 계획 기반 비전 언어 모델을 활용한 종단형 자율주행

초록

상세 분석

댓글 및 학술 토론

의견 남기기