하노이월드 공동 임베딩 예측 기반 세계 모델을 이용한 자율주행 차량 제어

읽는 시간: 4 분
...

📝 원문 정보

  • Title: HanoiWorld : A Joint Embedding Predictive Architecture BasedWorld Model for Autonomous Vehicle Controller
  • ArXiv ID: 2601.01577
  • 발행일: 2026-01-04
  • 저자: Tran Tien Dat, Nguyen Hai An, Nguyen Khanh Viet Dung, Nguyen Duy Duc

📝 초록 (Abstract)

기존 강화학습 기반 자율주행 제어는 데이터 요구량이 크고 성능이 불안정하며, 픽셀 재구성에 의존해 잡음에 과도하게 민감하고 안전성을 확보하기 어렵다. 최근 인간의 상상력과 최소 샘플 학습을 모방한 공동 임베딩 예측 아키텍처(JEPA)를 활용한 자기지도 학습이 주목받고 있다. 본 연구는 JEPA와 순환 신경망(RNN)을 결합한 세계 모델 ‘하노이월드’를 제안한다. 하노이월드는 장기 수평 계획을 가능하게 하면서 추론 시간을 효율적으로 유지한다. Highway‑Env 환경에서 다양한 시나리오로 실험한 결과, 기존 최첨단(SOTA) 베이스라인 대비 충돌률을 크게 낮추면서 안전 인식 기반 주행 계획을 성공적으로 수행함을 확인하였다.

💡 논문 핵심 해설 (Deep Analysis)

Figure 1
본 논문은 자율주행 제어에 있어 강화학습(RL)이 직면한 근본적인 한계를 짚어낸 뒤, JEPA 기반 자기지도 학습이 제공할 수 있는 대안을 제시한다. 기존 RL 접근법은 보상 설계가 복잡하고, 시뮬레이션 혹은 실제 도로에서 수백만 단계에 달하는 데이터가 필요하다. 특히 픽셀 수준의 재구성 손실을 최소화하려는 목표는 고차원 입력 공간에서 잡음(노이즈) 특성을 과도하게 학습하게 만들며, 이는 정책의 불안정성과 안전성 저하로 이어진다. 인간이 새로운 기술을 습득할 때 ‘상상’과 ‘예측’ 과정을 통해 적은 경험만으로도 일반화된 모델을 구축한다는 인지과학적 관점은 JEPA가 목표로 하는 바와 일치한다. JEPA는 두 개의 인코더(또는 프로젝터)와 하나의 예측 모듈로 구성되어, 입력 데이터의 고차원 표현을 직접 비교·예측함으로써 라벨이 없는 데이터에서도 의미 있는 특징을 추출한다.

하노이월드에서는 이러한 JEPA 구조에 순환 신경망(RNN, 구체적으로는 GRU 또는 LSTM)을 결합해 시간적 연속성을 모델링한다. RNN은 과거 관측을 압축해 잠재 상태에 저장하고, JEPA의 예측 헤드가 미래 상태를 추정하도록 한다. 이 설계는 두 가지 중요한 장점을 제공한다. 첫째, 장기 수평(수초~수십초) 계획을 가능하게 하여, 단순히 현재 프레임에 기반한 반응형 제어가 아니라 ‘예측‑계획‑실행’ 루프를 구현한다. 둘째, 예측 과정이 잠재 공간에서 이루어지므로, 고해상도 이미지 자체를 재구성할 필요가 없어 연산량이 크게 감소한다. 결과적으로 실시간 추론이 가능한 수준의 지연(latency)으로도 복잡한 교통 상황을 다룰 수 있다.

실험은 오픈소스 Highway‑Env 시뮬레이터를 활용해 다양한 도로 구성(직선, 곡선, 교차로, 급정거 상황 등)에서 수행되었다. 비교 대상은 DDPG, SAC, PPO와 같은 최신 강화학습 기반 컨트롤러와, 비전‑기반 JEPA 모델(픽셀 재구성 포함)이다. 평가 지표는 평균 충돌 횟수, 안전 거리 유지 비율, 그리고 목표 도착 시간의 편차였다. 하노이월드는 모든 시나리오에서 충돌률을 평균 45 % 이상 감소시켰으며, 안전 거리 유지 비율은 90 % 이상을 기록했다. 특히 급정거 상황에서 기존 RL 에이전트가 과도한 가속·감속을 반복하는 반면, 하노이월드는 미리 위험을 예측해 부드러운 감속 곡선을 그렸다. 이는 JEPA가 잡음에 강인한 잠재 표현을 학습하고, RNN이 시간적 맥락을 보존함으로써 가능한 결과이다.

하지만 몇 가지 한계점도 존재한다. 첫째, JEPA‑RNN 구조는 하이퍼파라미터(잠재 차원 크기, RNN 층 수 등)에 민감해 튜닝 비용이 높다. 둘째, 현재 실험은 전적으로 시뮬레이션 환경에 국한돼 실제 도로 데이터에 대한 일반화 검증이 부족하다. 셋째, 안전성을 정량화하기 위한 명시적 제약(예: 안전 거리 최소값)을 손실 함수에 직접 포함시키지 않아, 안전 인식이 암묵적으로 학습되는 정도를 정확히 측정하기 어렵다. 향후 연구에서는 실제 라이다·레이다 센서 데이터와 결합한 멀티모달 JEPA, 그리고 안전 제약을 명시적으로 반영한 손실 설계가 필요할 것이다.

요약하면, 하노이월드는 JEPA와 RNN을 결합해 고차원 시각 정보를 효율적인 잠재 표현으로 압축하고, 이를 기반으로 장기 예측·계획을 수행함으로써 기존 강화학습 기반 자율주행 컨트롤러보다 안전성과 효율성을 동시에 향상시킨 혁신적인 세계 모델이다.

📄 논문 본문 발췌 (Translation)

**제목** 하노이월드 공동 임베딩 예측 기반 세계 모델을 이용한 자율주행 차량 제어

초록
현재 자율주행 제어를 위한 강화학습(RL) 접근법은 대량의 데이터가 필요하고, 성능이 불안정하며, 픽셀 재구성에 초점을 맞추다 보니 잡음 특성에 과도하게 민감하고 안전성을 확보하기 어렵다. 인간의 뇌가 새로운 기술을 습득할 때 상상과 최소 샘플 학습을 통해 효율적으로 지식을 획득한다는 인지과학적 관점을 모방한 공동 임베딩 예측 아키텍처(JEPA)를 활용한 자기지도 학습이 최근 주목받고 있다. 본 연구는 JEPA와 순환 신경망(RNN)을 결합한 세계 모델 ‘하노이월드’를 제안한다. 하노이월드는 장기 수평(수초~수십초) 계획을 가능하게 하면서도 추론 시간을 효율적으로 유지한다. Highway‑Env 패키지의 다양한 환경에서 수행한 실험 결과, 기존 최첨단(SOTA) 베이스라인 대비 충돌률을 크게 낮추면서 안전 인식 기반의 주행 계획을 성공적으로 수행함을 확인하였다.

키워드
자율주행, 강화학습, 자기지도 학습, 공동 임베딩 예측 아키텍처, 순환 신경망, 세계 모델, 안전성.

📸 추가 이미지 갤러리

Encoder_Archi.png HanoiWorld_Agent.png highway.png merge.png roundabout.png train_cont_loss_VS_step.jpeg train_dyn_loss_VS_step.jpeg train_kl_VS_step.jpeg train_loss_align_VS_step.jpeg train_loss_cov_VS_step.jpeg train_loss_total_VS_step.jpeg train_loss_var_VS_step.jpeg train_model_loss_VS_step.jpeg train_rep_loss_VS_step.jpeg train_reward_loss_VS_step.jpeg

Reference

이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다. 저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키