키포인트 기반 멀티모달 언어 조건 궤적 생성 K‑Gen

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

K‑Gen은 라스터화된 BEV 지도와 텍스트 설명을 동시에 입력받는 멀티모달 대형 언어 모델(MLLM)을 활용해, 차량의 의도를 설명하는 체인‑오브‑생각(CoT)과 함께 해석 가능한 키포인트를 생성한다. 생성된 키포인트는 TrajRefiner라는 트랜스포머 기반 보정 모듈을 통해 완전한 궤적으로 정제된다. 또한, Trajectory‑aware Decoupled Clip and Dynamic Sampling Policy Optimization(T‑DAPO) 강화학습을 적용해 어려운 상황에서의 정확도와 안전성을 향상시킨다. WOMD와 nuPlan 벤치마크에서 기존 LLM 기반 방법들을 능가하는 mADE, mFDE, 충돌률(SCR) 성능을 기록하였다.

상세 분석

본 논문은 자율주행 시뮬레이션에서 현실감 있고 다양성 있는 궤적을 생성하는 문제를 멀티모달 언어 모델과 키포인트 기반 구조로 접근한다는 점에서 혁신적이다. 기존 연구들은 주로 벡터화된 지도와 구조화된 에이전트 정보를 입력으로 사용했으며, 이는 시각적 디테일과 복합적인 교통 상황을 충분히 표현하지 못한다. K‑Gen은 BEV(Top‑down) 라스터 지도 이미지를 비전 인코더로, 텍스트 기반 상황 설명을 텍스트 인코더로 처리한 뒤, 두 토큰을 MLLM에 결합한다. 이때 MLLM은 단순히 궤적을 직접 출력하는 것이 아니라, “ … ” 형태의 CoT와 “ … ” 형태의 키포인트 시퀀스를 동시에 생성한다.

키포인트는 두 가지 기준으로 추출된다. 첫째, Douglas‑Peucker 알고리즘을 이용해 곡률이 큰 구간을 압축해 얻는 기하학적 키포인트(K_g). 둘째, 속도 변화가 일정 임계값(δ_v) 이상인 시점에서 추출되는 동역학적 키포인트(K_v). 두 집합을 합집합(K = K_g ∪ K_v)함으로써 궤적의 형태와 동적 특성을 모두 포착한다. 이렇게 얻은 희소 키포인트는 선형 보간을 통해 초기 완전 궤적(˜Y)을 만든 뒤, TrajRefiner가 잔차(ΔY)를 예측해 최종 궤적(ĤY = ˜Y + ΔY)으로 정제한다. TrajRefiner는 히스토리 궤적(H), 에이전트 상태(S), 키포인트(K)를 교차 어텐션으로 결합한 트랜스포머 디코더 두 층으로 구성되며, 운동 손실(L_motion), 운동학 일관성 손실(L_KCL), 최종점 손실(L_FPL)을 동시에 최소화한다.

학습 단계는 두 단계로 나뉜다. 첫 번째는 SFT(Supervised Fine‑Tuning) 단계로, Claude 3.7 Sonnet을 활용해 생성한 CoT와 키포인트 레이블을 지도‑텍스트 입력에 대해 조건부 확률을 최대화한다. 두 번째는 강화학습 기반 RFT 단계이며, 여기서 제안된 T‑DAPO는 기존 DPO(Direct Preference Optimization)의 안정성을 유지하면서 궤적 특화 보상을 도입한다. 보상은 세 부분으로 구성된다: (1) 정확도 보상(R_acc) – ADE와 FDE를 지수적으로 감소시키는 형태, (2) CoT 길이 보상(R_cot) – 과도한 설명을 억제, (3) 포맷 보상(R_fmt) – 태그 순서와 존재 여부를 검증. 특히, 전체 샘플 중 mADE·mFDE가 상위 30%인 ‘hard’ 샘플에 대해 클리핑과 동적 샘플링을 적용함으로써 학습이 단순 직선 예측에 수렴하는 현상을 방지한다.

실험에서는 InternVL‑3‑8B를 베이스 모델로 사용했으며, WOMD와 nuPlan 두 데이터셋에서 mADE, mFDE, SCR 모두 기존 LCTGen, InteractTraj, Qwen 시리즈 등을 앞섰다. 특히 SCR(Scenario Collision Rate)이 0.006 수준으로 크게 감소했으며, 이는 키포인트 기반 구조가 물리적 충돌 회피를 자연스럽게 학습하도록 돕는 효과를 보여준다. 추론 속도도 1.63초/시나리오(50프레임)로 실시간 시뮬레이션에 충분히 적용 가능하다.

요약하면, K‑Gen은 (1) 멀티모달 입력을 통한 풍부한 상황 이해, (2) CoT와 키포인트를 결합한 해석 가능성, (3) TrajRefiner를 통한 정밀 보정, (4) T‑DAPO 기반 강화학습으로 어려운 상황에서도 안전하고 정확한 궤적을 생성한다는 네 가지 핵심 요소를 통합함으로써, 자율주행 시뮬레이션용 궤적 생성 분야에 새로운 패러다임을 제시한다.

키포인트 기반 멀티모달 언어 조건 궤적 생성 K‑Gen

초록

상세 분석

댓글 및 학술 토론

의견 남기기