하노이월드 공동 임베딩 예측 기반 세계 모델을 이용한 자율주행 차량 제어
📝 원문 정보
- Title: HanoiWorld : A Joint Embedding Predictive Architecture BasedWorld Model for Autonomous Vehicle Controller
- ArXiv ID: 2601.01577
- 발행일: 2026-01-04
- 저자: Tran Tien Dat, Nguyen Hai An, Nguyen Khanh Viet Dung, Nguyen Duy Duc
📝 초록 (Abstract)
기존 강화학습 기반 자율주행 제어는 데이터 요구량이 크고 성능이 불안정하며, 픽셀 재구성에 의존해 잡음에 과도하게 민감하고 안전성을 확보하기 어렵다. 최근 인간의 상상력과 최소 샘플 학습을 모방한 공동 임베딩 예측 아키텍처(JEPA)를 활용한 자기지도 학습이 주목받고 있다. 본 연구는 JEPA와 순환 신경망(RNN)을 결합한 세계 모델 ‘하노이월드’를 제안한다. 하노이월드는 장기 수평 계획을 가능하게 하면서 추론 시간을 효율적으로 유지한다. Highway‑Env 환경에서 다양한 시나리오로 실험한 결과, 기존 최첨단(SOTA) 베이스라인 대비 충돌률을 크게 낮추면서 안전 인식 기반 주행 계획을 성공적으로 수행함을 확인하였다.💡 논문 핵심 해설 (Deep Analysis)

하노이월드에서는 이러한 JEPA 구조에 순환 신경망(RNN, 구체적으로는 GRU 또는 LSTM)을 결합해 시간적 연속성을 모델링한다. RNN은 과거 관측을 압축해 잠재 상태에 저장하고, JEPA의 예측 헤드가 미래 상태를 추정하도록 한다. 이 설계는 두 가지 중요한 장점을 제공한다. 첫째, 장기 수평(수초~수십초) 계획을 가능하게 하여, 단순히 현재 프레임에 기반한 반응형 제어가 아니라 ‘예측‑계획‑실행’ 루프를 구현한다. 둘째, 예측 과정이 잠재 공간에서 이루어지므로, 고해상도 이미지 자체를 재구성할 필요가 없어 연산량이 크게 감소한다. 결과적으로 실시간 추론이 가능한 수준의 지연(latency)으로도 복잡한 교통 상황을 다룰 수 있다.
실험은 오픈소스 Highway‑Env 시뮬레이터를 활용해 다양한 도로 구성(직선, 곡선, 교차로, 급정거 상황 등)에서 수행되었다. 비교 대상은 DDPG, SAC, PPO와 같은 최신 강화학습 기반 컨트롤러와, 비전‑기반 JEPA 모델(픽셀 재구성 포함)이다. 평가 지표는 평균 충돌 횟수, 안전 거리 유지 비율, 그리고 목표 도착 시간의 편차였다. 하노이월드는 모든 시나리오에서 충돌률을 평균 45 % 이상 감소시켰으며, 안전 거리 유지 비율은 90 % 이상을 기록했다. 특히 급정거 상황에서 기존 RL 에이전트가 과도한 가속·감속을 반복하는 반면, 하노이월드는 미리 위험을 예측해 부드러운 감속 곡선을 그렸다. 이는 JEPA가 잡음에 강인한 잠재 표현을 학습하고, RNN이 시간적 맥락을 보존함으로써 가능한 결과이다.
하지만 몇 가지 한계점도 존재한다. 첫째, JEPA‑RNN 구조는 하이퍼파라미터(잠재 차원 크기, RNN 층 수 등)에 민감해 튜닝 비용이 높다. 둘째, 현재 실험은 전적으로 시뮬레이션 환경에 국한돼 실제 도로 데이터에 대한 일반화 검증이 부족하다. 셋째, 안전성을 정량화하기 위한 명시적 제약(예: 안전 거리 최소값)을 손실 함수에 직접 포함시키지 않아, 안전 인식이 암묵적으로 학습되는 정도를 정확히 측정하기 어렵다. 향후 연구에서는 실제 라이다·레이다 센서 데이터와 결합한 멀티모달 JEPA, 그리고 안전 제약을 명시적으로 반영한 손실 설계가 필요할 것이다.
요약하면, 하노이월드는 JEPA와 RNN을 결합해 고차원 시각 정보를 효율적인 잠재 표현으로 압축하고, 이를 기반으로 장기 예측·계획을 수행함으로써 기존 강화학습 기반 자율주행 컨트롤러보다 안전성과 효율성을 동시에 향상시킨 혁신적인 세계 모델이다.
📄 논문 본문 발췌 (Translation)
📸 추가 이미지 갤러리