장기 위험 인식 멀티모달 자율주행 시스템 HERMES

장기 위험 인식 멀티모달 자율주행 시스템 HERMES
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

HERMES는 대형 비전‑언어 모델(VLM)을 활용해 장기 위험 상황을 텍스트 형태로 구조화하고, 이를 멀티모달 트리모달 드라이빙 모듈에 결합해 실시간 위험‑인식 경로를 생성하는 엔드‑투‑엔드 자율주행 프레임워크이다. 장기·희소 상황을 위한 별도 데이터셋과 프롬프트 설계, 위험‑인식 플래닝 컨텍스트를 도입해 기존 엔드‑투‑엔드 및 VLM 기반 모델보다 긴 꼬리 상황에서 안전성과 정확성을 크게 향상시킨다.

상세 분석

HERMES는 크게 두 축으로 설계된다. 첫 번째 축은 “Long‑Tail Instruction Embedding” 모듈로, 클라우드 기반 VLM(Qwen‑VL‑Flash 등)을 이용해 8대 카메라 이미지와 차량 과거 상태를 입력으로 장거리 위험 상황을 두 종류의 텍스트 컨텍스트(‘Long‑Tail Scene Context’와 ‘Long‑Tail Planning Context’)로 변환한다. 여기서 Scene Context는 희소 객체·폐색·비정상 상호작용 등을 다중 시점에서 서술하고, Planning Context는 위험 수준, 운전 의도, 고수준 지시(예: “속도 감소”, “차선 변경”)와 그 근거를 포함한다. 프롬프트 설계는 위험‑중심 질문과 구조화된 응답 형식을 강제함으로써 VLM이 일관된 위험 인식을 제공하도록 최적화되었다.

두 번째 축은 “Tri‑Modal Driving Module”이다. 이 모듈은 (1) 멀티뷰 이미지 피처, (2) 과거 차량 동작 시퀀스, (3) 위에서 얻은 텍스트 임베딩을 각각 인코딩한 뒤, 교차‑어텐션 기반 융합을 수행한다. 이미지 피처는 Scene Context 임베딩과 결합돼 위험 요소를 강조하고, 시간 인코더는 차량의 관성 및 궤적 패턴을 요약한다. 최종 플래닝 컨텍스트는 고수준 운전 의도와 Planning Context 임베딩으로 다시 조정돼, 위험‑인식 가중치를 반영한 경로 토큰을 출력한다.

핵심 기술적 기여는 다음과 같다.

  1. 위험‑중심 텍스트 주석 파이프라인: 기존 라벨링 방식이 이미지‑바운딩 박스에 국한된 반면, HERMES는 VLM을 교사로 삼아 자연어 형태의 위험 설명을 자동 생성하고, 이를 구조화된 라벨로 변환한다. 이는 장기 상황에서 라벨 부족 문제를 근본적으로 완화한다.
  2. Tri‑Modal Fusion Architecture: 멀티뷰 시각 정보와 시간적 동작 정보를 동시에 처리하면서, VLM‑생성 임베딩을 어텐션 메커니즘에 삽입해 위험 신호를 명시적으로 강조한다. 이는 기존 End‑to‑End 모델이 시각‑시간 정보를 압축하면서 손실되는 위험 정보를 보존한다.
  3. Risk‑Aware Planning Objective: 손실 함수에 위험 레벨 가중치를 도입해, 위험도가 높은 상황일수록 경로의 안전성(예: 속도 감소, 차선 유지)과 일치하도록 학습한다. 이는 단순 거리·시간 최소화 목표와 차별화된 설계이다.
    실험에서는 WOD‑E2E 기반 장기 상황 데이터셋에 새로 구축한 라벨을 추가해 5가지 대표 베이스라인(InterFuser, UniAD, VAD, GPT‑Driver, DriveVLM)과 비교하였다. HERMES는 평균 ADE(Absolute Displacement Error)를 12.4% 개선하고, 위험 상황에서의 충돌율을 35% 이상 감소시켰다. Ablation에서는 (i) 텍스트 컨텍스트 제거, (ii) Tri‑Modal Fusion 대신 단일 모달, (iii) 위험 가중치 없는 학습을 각각 제외했을 때 성능 저하가 뚜렷이 나타나, 제안된 각 구성요소가 상호 보완적으로 작용함을 입증한다.

전반적으로 HERMES는 “대형 VLM을 위험 인식 교사로 활용 → 구조화된 위험 텍스트 → 멀티모달 플래닝에 통합”이라는 파이프라인을 통해, 기존 엔드‑투‑엔드 모델이 놓치기 쉬운 장기·희소 상황을 체계적으로 다루며 실시간 추론 요구도 만족한다는 점에서 자율주행 연구에 중요한 전진을 제시한다.


댓글 및 학술 토론

Loading comments...

의견 남기기