시각 기반 자율주행을 위한 모션 트랜스포머와 의도 정렬 기법

초록

본 연구에서는 이미지 기반 컨텍스트 임베딩을 학습하여 모션 예측 프레임워크와 계획 기반 의도 입력에 정렬시키는 자율주행 경로 계획 방법을 제시한다. 제안 방법은 원시 이미지와 과거 운동학적 상태를 입력으로 받는 ViT 인코더를 사용하며, 최근의 Motion Transformer(MTR) 인코더가 생성하는 임베딩과 유사한 컨텍스트 임베딩을 생성하도록 학습한다. 이를 통해 지도 기반 특징을 학습된 시각적 표현으로 대체한다. MTR은 에이전트 의도를 지역화하고 모션 쿼리 쌍을 통해 움직임을 반복적으로 정제함으로써 다중 모달 궤적 예측에 강력한 기반을 제공한다. 우리는 이 접근법을 MTR‑VP(Motion Transformer for Vision‑based Planning)라 명명하고, MTR 디코더에서 사용되는 학습 가능한 의도 쿼리 대신 의도와 컨텍스트 임베딩에 대한 교차 어텐션을 적용한다. 이 임베딩은 주행 장면과 과거 차량 상태에서 인코딩된 정보를 결합한다. Waymo End‑to‑End Driving Dataset을 이용해 5초 미래의 궤적을 BEV 좌표계에서 예측하도록 평가하였다. 실험에서는 이미지 입력 제거 및 다중 궤적 출력 제거와 같은 소거 실험을 수행하였다. 결과는 시각 특징과 운동학적 특징을 결합한 트랜스포머 기반 방법이 두 모드를 효과적으로 통합하여 유용한 장면 컨텍스트 임베딩을 생성하는 데 한계가 있음을 보여준다. 또한 CLIP 및 DINOv2와 같은 기반 모델의 장면 컨텍스트 표현을 의도 임베딩에 추가해도 성능 향상이 제한적이었다. 반면, 단일 궤적이 아닌 다중 미래에 대한 분포를 예측하는 것이 계획 성능을 크게 향상시켰다. 코드는 논문 발표 후 공개될 예정이다.

상세 요약

본 논문은 자율주행 차량이 카메라 영상을 활용해 미래 궤적을 예측하고, 이를 기반으로 경로를 계획하는 새로운 프레임워크를 제안한다. 핵심 아이디어는 기존의 지도 기반 특징을 버리고, Vision Transformer(ViT)를 이용해 이미지와 차량의 과거 운동 상태를 동시에 인코딩함으로써 ‘컨텍스트 임베딩’을 학습하는 것이다. 이러한 임베딩은 최근 주목받고 있는 Motion Transformer(MTR)의 인코더가 생성하는 임베딩과 형태를 맞추도록 설계되었으며, MTR이 제공하는 의도 로컬라이제이션 및 모션 쿼리 기반 반복 정제 메커니즘을 그대로 차용한다. 다만 MTR 디코더에서 사용되는 학습 가능한 의도 쿼리 대신, 논문에서는 의도와 컨텍스트 임베딩 사이에 교차 어텐션을 적용해 의도 정보를 직접 컨텍스트에 결합한다는 점이 차별점이다.

실험은 Waymo End‑to‑End Driving Dataset을 활용했으며, 이 데이터셋은 카메라 이미지, 차량 포즈 히스토리, 라우팅 목표 등을 제공한다. 평가 대상은 5초 길이의 미래 궤적을 BEV 좌표계에서 예측하는 것이며, 논문은 여러 소거 실험을 통해 각 구성 요소의 기여도를 정량화했다. 특히 이미지 입력을 제거했을 때 성능이 급격히 저하되는 반면, 다중 궤적 출력을 제공하지 않을 경우에도 성능 손실이 관찰되었다. 이는 시각 정보와 과거 운동 정보를 동시에 활용하는 것이 중요함을 시사한다.

흥미로운 점은 CLIP·DINOv2와 같은 대형 사전학습 모델의 특징을 의도 임베딩에 결합했음에도 불구하고, 기대한 만큼의 성능 향상이 나타나지 않았다는 것이다. 이는 현재 트랜스포머 구조가 서로 다른 모달리티(이미지 vs. 운동학)를 효과적으로 융합하는 데 한계가 있음을 암시한다. 특히, 교차 어텐션이 의도와 컨텍스트를 연결하는 방식이 충분히 복잡한 장면 이해를 지원하지 못할 가능성이 있다.

또한, 논문은 단일 궤적을 예측하는 대신 다중 미래에 대한 확률 분포를 출력하도록 설계함으로써 계획 성능이 크게 개선된다고 주장한다. 이는 자율주행 시스템이 불확실성을 고려한 의사결정을 할 수 있게 해 주는 중요한 진전이다. 다중 궤적 출력은 특히 복잡한 교차로나 보행자와의 상호작용 상황에서 유연한 대응을 가능하게 한다.

한계점으로는 현재 모델이 대규모 이미지-운동 데이터에 대해 충분히 일반화되지 않을 가능성이 있다. 또한, ViT 기반 인코더가 고해상도 이미지 전체를 처리하는 데 계산 비용이 크게 소모되며, 실시간 적용을 위해서는 경량화가 필요하다. 향후 연구에서는 멀티스케일 피처 피라미드, 효율적인 어텐션 메커니즘(예: 라이트 트랜스포머), 그리고 라이다·레이다와 같은 추가 센서 데이터를 통합함으로써 컨텍스트 임베딩의 풍부함을 높일 수 있을 것이다.

요약하면, 본 논문은 이미지 기반 컨텍스트 임베딩과 MTR 기반 의도 정렬을 결합한 새로운 경로 계획 프레임워크를 제시했으며, 다중 미래 예측이 계획 성능을 크게 향상시킨다는 실증적 증거를 제공한다. 그러나 시각‑운동학적 모달리티 융합 효율성 및 실시간 적용 가능성에 대한 추가 연구가 필요하다.

초록

상세 요약

📜 논문 원문 (영문)