레지스터 토큰으로 구현한 효율적인 트랜스포머 기반 자율주행
초록
DrivoR는 사전 학습된 Vision Transformer에 카메라별 레지스터 토큰을 추가해 다중 카메라 특징을 압축하고, 경량 트랜스포머 디코더 두 개로 후보 궤적을 생성·점수화한다. 점수화 디코더는 안전·편안함·효율성 등 해석 가능한 서브스코어를 예측해 행동 조건을 자유롭게 조정할 수 있다. 실험 결과 NAVSIM‑v1·v2와 포토리얼리틱 HUGSIM 벤치마크에서 기존 최첨단 모델과 동등하거나 우수한 성능을 보이며, 파라미터와 연산량도 크게 감소한다.
상세 분석
DrivoR는 기존 E2E 자율주행 파이프라인이 이미지 백본에서 생성되는 수천 개 토큰을 그대로 사용해 연산 병목을 일으키는 문제를 레지스터 토큰이라는 구조적 압축 기법으로 해결한다. 각 카메라마다 R개의 학습 가능한 레지스터를 삽입하고, 사전 학습된 DINOv2‑ViT‑S에 LoRA 방식으로 미세조정함으로써 원본 패치 토큰을 유지하면서도 시각 정보를 요약한다. 이렇게 얻어진 N × R개의 씬 토큰은 이후 두 개의 디코더에 공유되는데, 첫 번째 디코더는 학습 가능한 궤적 쿼리를 통해 |Q_traj|개의 후보 궤적을 생성하고, 두 번째 디코더는 각 후보를 다시 임베딩해 점수화 쿼리로 변환한다. 점수화 디코더는 씬 토큰과 교차‑어텐션을 수행하면서도 궤적 생성 디코더와 그래디언트 흐름을 분리해 두 작업이 서로 간섭하지 않도록 설계되었다. 이는 점수화가 궤적 생성에 대한 피드백을 받지 않아도 충분히 강력한 스코어링을 학습하게 함으로써, 서브스코어(안전, 편안함, 효율성 등)를 별도로 예측하고 사용자가 원하는 가중치를 적용해 행동을 조정할 수 있게 만든다. 학습 손실은 최소‑오버‑n(MoN) 형태의 궤적 손실과 바이너리 교차 엔트로피 기반 서브스코어 손실을 단순 가중합(L = L_traj + L_score)으로 결합한다. 실험에서는 4대 카메라 입력, 16개의 레지스터(카메라당)로 총 64개의 씬 토큰을 사용했으며, 디코더는 4층, 차원 256으로 경량화했다. 파라미터는 약 40 M에 불과하지만 NAVSIM‑v1/v2와 HUGSIM에서 기존 대형 ViT 기반 모델을 능가하거나 동등한 PDMS, 충돌, 진행률 등 주요 지표를 기록했다. 특히 레지스터 토큰을 통한 압축이 연산량을 크게 낮추면서도 중요한 계획 정보를 보존한다는 점이 가장 큰 기여이며, 서브스코어 기반 행동 조건화는 실제 서비스 단계에서 사용자 맞춤형 주행 스타일을 구현하는 실용적 가치를 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기