잠재적 사고연쇄를 활용한 고속 자율주행 모델
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.
초록
LCDrive는 텍스트 대신 행동과 세계 모델 토큰을 교차시켜 잠재적 사고연쇄(Chain‑of‑Thought)를 수행한다. 행동 제안 토큰과 학습된 잠재 세계 모델(LWM) 토큰을 번갈아 생성함으로써 미래 상황을 압축된 잠재 공간에서 시뮬레이션하고, 이를 기반으로 최종 주행 궤적을 예측한다. 세 단계(비추론 사전학습 → 잠재 CoT 냉시작 → 폐쇄‑루프 강화학습) 학습 파이프라인을 통해 추론 속도와 궤적 품질을 크게 향상시켰으며, 대규모 물리‑AI 데이터셋에서 텍스트‑CoT 및 비추론 베이스라인 대비 우수한 성능을 보였다.
상세 분석
LCDrive는 기존 Vision‑Language‑Action(VLA) 기반 자율주행 모델이 텍스트 형태의 사고연쇄(Chain‑of‑Thought, CoT)를 사용해 추론을 수행하는 한계를 지적하고, 보다 효율적인 “잠재 CoT”를 제안한다. 핵심 아이디어는 두 종류의 토큰을 같은 어휘 체계 안에서 교차시키는 것이다. 첫 번째는 행동 제안 토큰으로, 최종 출력 궤적을 구성하는 64개의 행동 토큰과 동일한 vocab을 사용한다. 두 번째는 잠재 세계 모델(LWM) 토큰으로, ego‑centric latent state를 1초(10 Hz) 윈도우 단위로 요약한다. 이 LWM은 차량 주변의 다중 에이전트 박스와 자세 정보를 벡터화한 집합이며, 경량 Transformer 혹은 MLP를 통해 행동 제안에 조건부로 예측된다.
토큰 시퀀스는 다음과 같이 구성된다:
\
댓글 및 학술 토론
Loading comments...
의견 남기기