하노이월드 안전한 자율주행의 열쇠

읽는 시간: 9 분
...

📝 원문 정보

- Title: HanoiWorld A Joint Embedding Predictive Architecture BasedWorld Model for Autonomous Vehicle Controller
- ArXiv ID: 2601.01577
- 발행일: 2026-01-04
- 저자: Tran Tien Dat, Nguyen Hai An, Nguyen Khanh Viet Dung, Nguyen Duy Duc

📝 초록

현재 자율 제어를 위한 강화 학습의 시도는 데이터 요구량이 많고 결과가 미흡하며 안정적이지 않고, 또한 픽셀 재구성의 특성상 잡음 특징에 과도하게 집중하여 안전 개념을 이해하고 이를 기반으로 하지 못하는 문제점이 있습니다. 현재 Self-Supervised Learning 접근 방식은 JEPA(Joint Embedding Predictive Architecture)를 활용해 고차원 표현을 학습하는데 흥미롭고 효과적인 대안입니다. 이 아이디어는 인간의 뇌가 상상력과 최소한의 관찰 샘플만으로 새로운 기술을 습득하는 자연스러운 능력을 모방하고 있습니다. 본 연구에서는 JEPA를 기반으로 한 세계 모델인 하노이월드(Hanoi-World)를 소개하며, 이는 재귀 신경망(RNN)을 활용해 효과적인 추론 시간과 함께 장기 수평 계획을 수행할 수 있게 합니다. 실험은 차이점 환경의 Highway-Env 패키지에서 이루어졌으며, SOTA 기준선들과 비교했을 때 충돌률이 상당히 감소하면서 안전 인식을 가진 운전 계획을 만드는 능력을 효과적으로 보여주고 있습니다.

💡 논문 해설

#### 1. 통합적인 자율 주행차 세계모델 설계 **간단히 말해:** 이 연구는 자율주행차를 위한 새로운 세계모델 설계 방법을 제안합니다. 기존에는 차량이 실제 환경에서 직접 학습하는 방식이 불안정하고 비효율적이었지만, 이제는 모의 환경에서 더 안전하게 학습할 수 있게 되었습니다. **비유:** 이는 자동차가 공부하듯이, 시뮬레이터라는 교실에서 선생님(세계모델)에게 가르침을 받고, 실제 도로에 나가는 것보다 훨씬 안전하게 학습할 수 있다는 것입니다.

2. JEPA 기반 인코딩 전략

간단히 말해: 이 모델은 대규모 비디오 데이터로부터 중요한 결정 정보를 추출하는 데 효과적입니다. 비유: 이는 방대한 양의 영상에서 핵심적인 정보만을 빠르게 찾아내는 것이 마치 어린이가 그림책에서 재미있는 부분만 집중해서 읽는 것과 같습니다.

3. RSSM 기반 잠재 메모리

간단히 말해: 이 모델은 부족한 정보에도 불구하고 안정적인 상태 전환을 지원합니다. 비유: 이는 어린이가 그림책에서 일부 페이지를 놓쳤을 때도, 전체 이야기의 흐름을 이해하는 능력과 같습니다.


📄 논문 발췌 (ArXiv Source)

들어가며

1986년 카네기 멜론 대학에서 처음으로 자율 주행 차량(AV) 실험이 수행된 이후, 자동차의 개발은 기술적 및 실제 적용 측면에서 중요한 진전을 이루었습니다. 이러한 차량들은 불확실성, 부분 관측 가능성, 그리고 다중 에이전트 환경(자기 주행차와 주변 차량, 보행자 등과의 상호작용)에 대한 도전 과제를 해결하면서 안전하게 운행할 것으로 예상됩니다. 그러나 이러한 도전은 강화학습 기반 제어기를 배포하고 실험하는 데 한계가 있으며, 이전 연구는 물리적 환경에서 간단히 전이 방법을 사용하여 학습 불안정성과 데이터 분산으로 인한 문제를 초래했습니다.

기술적인 측면에서는 AV의 결정은 통상적으로 시뮬레이터를 이용해 경험을 획득하고, 강화학습 알고리즘을 기반으로 한 계획 알고리즘이 데이터 풍부성 가정 하에서 사용되었습니다. 그러나 전통적인 접근 방식인 몬테카를로 트리 서치(MCTS)나 부분 관측 마코프 의사결정 과정(POMDPs)을 이용한 신념 공간 계획은 실험 진행 시 정책 학습 없이도 시뮬레이터 내에서 막대한 컴퓨팅 오버헤드를 필요로 합니다. 이러한 방법은 불확실성 해결에 도움이 되지만, 확장성이 제한적입니다. 또한 이러한 전개 전략은 장기적인 시간 경과에 따라 오류가 증폭되고 모델의 정확도가 떨어지게 됩니다. 더불어 관측 수준 예측은 재구성 과제에서 시각적, 운동학적 신뢰성을 우선시하므로 실제 결정 관련 요소를 완전히 포괄하지 못하고 물체 제어에 비효율성이 발생할 수 있습니다.

인간의 능력으로부터의 영감을 받아 현재 환경과 상호작용 기반의 가능한 미래 시나리오를 가상화하는 능력을 활용한 행동 가능성 이론과 인간 기억은 모델 설계 구현에 자동 학습 패러다임을 사용하여 환경 동적성을 학습하는 방식으로 정형화될 수 있습니다. Joint-Embedding Predictive Architectures (JEPA)는 원시 관측의 재구성 없이 미래 표현을 직접 예측함으로써 잠재 공간을 학습합니다. 이를 통해 임베딩 붕괴를 방지하고 정보 변동성을 강제합니다. 최신 모델인 V-JEPA-2는 수동 관찰에서 얻은 표현의 동작 동적성 학습에 대규모 비디오 데이터를 확장하여 추후 가벼운 동작 조건 제어기로 훈련 신호를 생성하는 데 사용할 수 있습니다. 병행해서, 재귀 상태 공간 모델(RSSMs)은 부분 관측 가능성이 있는 마르코프적 동역학을 근사하기 위해 최소한의 표현 양으로 장기 계획이 가능한 간결한 잠재 메모리를 유지하는 효과적인 방법을 제공합니다. 장기 RSSM 계획 모델을 사용하는 인코더의 시도는 MCTS 기반 접근 방식보다 효율성과 오버헤드 최소화를 증가시키며, 여전히 센서 중심 행동을 에이전트에서 생성합니다.

이러한 연구 결과에 따르면 세계모델 설계는 V-JEPA-2와 같은 사전 훈련된 인코더로부터의 고품질 자동 학습 임베딩과 장기 계획자의 사용을 결합하여 추론 비용을 줄이면서 정확도를 유지하고 조절 가능한 모델 주행 품질을 제공할 수 있는 잠재적인 이점을 가질 수 있다는 것을 주장합니다.

본 연구의 기여 항목은 다음과 같은 4가지 핵심 요소를 포함합니다:

  • 자율주행차를 위한 세계모델 설계에 대한 통합적 관점으로서, 관측 수준 시뮬레이션보다 예측 및 표현 수준 모델링을 강조하는 HanoiWorld.

  • V-JEPA-2의 휴대용 조정을 기반으로 한 JEPA 기반 인코딩 전략 제안으로 대규모 비디오 데이터에서 결정 관련 잠재 표현 학습.

  • 부분 관측 가능성 하에서 근사 마르코프 상태 전환을 지원하기 위한 RSSM 기반 잠재 메모리의 통합.

  • 간단한 MLP 기반 액터–크리틱 컨트롤러가 학습된 잠재 세계 모델 내에서 효과적으로 훈련될 수 있음을 보여주는 것, 이는 비싼 계획 알고리즘과 복잡한 정책 아키텍처를 피하는 것입니다.

본 논문의 나머지 부분은 다음과 같이 구성되어 있습니다; 섹션 2는 관련 작업을 중점적으로 다루고, 도전 과제와 관련해 해결책에 대한 개념적 및 이론적 기반을 제공합니다; 섹션 3은 제안된 세계모델 설계를 논의하며, 섹션 4는 실험 설명, 사용 사례 및 결과 토론을 제공하려고 합니다. 마지막으로, 보고서는 섹션 5에서 결론을 내릴 것입니다.

또한, HANOI–WORLD 코드베이스 를 통해 재현성을 촉진하기 위해 실험 코드베이스를 공개할 것입니다.

관련 연구

세계 모델은 강화학습 기반 컨트롤러 훈련에 대한 새로운 접근 방식으로 제안되었으며, 실제 상호작용을 기반으로 한 모델의 신뢰성 부족 및 비효율성을 극복하기 위한 해결책입니다. 차량은 항상 가려진 상태에서 무한한 세계 지식을 가지며 불확실성이 필연적으로 발생합니다. 이러한 도전들은 강화학습 컨트롤러를 위한 훈련 접근 방식 재구성의 필요성을 촉발하고, 인간의 생물학적 학습 메커니즘에 영감을 받아 행동 가능성과 상상력을 활용하는 간결하면서도 의미 있는 표현으로 확장성 및 신뢰성을 얻는 것에 대한 요구를 반영합니다.

모델 기반 강화학습에서 주행 세계모델로

주행 세계모델의 개념적 뿌리는 모델 기반 강화학습(MBRL)에 있으며, 에이전트가 동역학 모델을 학습한 다음 미래를 시뮬레이션하여 계획합니다. OpenAI Gym은 통일된 API를 통해 알고리즘을 비교할 수 있도록 했으며, DeepMind Control Suite는 연속 제어 환경의 선택 세트를 제공하여 학습과 제어에 대한 엄격한 평가를 유도했습니다. 이러한 인프라는 동역학 모델 학습, 표현 학습 및 계획에서 순차적인 개선을 촉발했습니다.

현대 잠재 동적 에이전트는 “세계모델은 상상 엔진"이라는 관점을 대표합니다. DreamerV3은 강한 성능과 안정성을 통해 다양한 환경에서 협소한 잠재 상태를 학습하고 상상 롤아웃을 통한 행동 최적화를 보여줍니다. 이러한 결과는 대부분 실제 주행 외부에서 보고되지만, 핵심 설계 원칙인 예측 잠재 상태, 확률적 동역학, 그리고 추정된 트래JECT리의 계획 또는 정책 개선은 주행 세계모델 디자인에 강력한 영향을 미칩니다. 강화학습에서 몸에 밴 에이전트 설계와 일반화에 대한 보완적인 관점은 원시 모델 용량만큼 중요한 것은 견고성과 확장 가능한 훈련 프로토콜이라는 것입니다. 자율 주행에서는 이러한 원칙들이 안전, 분포 이동, 장기 의사결정 및 다중 에이전트 상호작용과 같은 추가 제약 조건들과 상호 작용합니다.

증가하는 연구는 세계모델의 가치를 향후 활용성(예: 개선된 계획 또는 더 안전한 결정)으로 평가해야 한다고 주장하고, 생성 정확도만을 기준으로 하지 않는다는 것입니다. 계획 중심 관점은 에이전트가 학습된 모델의 결점을 이용하여 실제 세계와 일치하지 않지만 “좋은” 롤아웃을 생성할 수 있다는 것을 강조합니다. 몸에 밴 세계모델 분석은 안전성을 첫 번째 등급으로 다루고 실패 모드를 노출하는 평가 프로토콜을 요구하며, 특히 클로즈드 루프 제어에서만 발생할 수 있는 문제입니다. 이러한 우려는 자율 주행에서는 급격한 위험 요인으로 나타나며, 작은 모델링 오류도 재앙적인 결과를 초래할 수 있습니다.

자기 학습 및 예측 표현 학습을 위한 주행

자율 주행은 풍부한 비표시 센서 스트림을 제공하지만 비교적 제한된 밀도 주석을 제공하므로 세계모델의 기반으로 자기 학습(SSL)이 동기화됩니다. 시각에서 SSL은 대조 및 클러스터링 기반 접근 방식에서 예측 및 추출 기반 방법론으로 발전했습니다. DINO는 라벨 없이 자동 교육을 통해 의미 있는 특성을 학습할 수 있음을 보여주었으며, 이러한 아이디어는 시간, 시점, 날씨를 넘어서 이전에 이식 가능한 표현을 찾기 위한 주행 전용 사전 훈련 노력에서 영감을 받았습니다.

그러나 주행 데이터는 일반적인 SSL에 대한 고유한 함정을 제공합니다. 대조 학습은 증강하더라도 같은 본질 내용을 나타내는 “긍정 쌍"을 정의해야 합니다; 주행 장면에서 많은 객체와 급격한 자기 운동이 있는 경우, 무분별한 증강이 일치를 파괴하고 부수적인 전달을 초래할 수 있습니다. 3D 데이터에 비용이 많이 드는 복원 기반 SSL은 모델이 계획 관련 의미보다 임의적인 표면 세부 사항을 예측하도록 강제할 수 있습니다. 따라서 최근 몇 가지 작업은 대조 쌍 또는 명시적 재구성을 대체하기 위한 임베딩 레벨 예측 및 분산 정규화를 옹호합니다.

특히 영향력 있는 개념적 프레임워크는 Joint Embedding Predictive Architecture(JEPA) 관점을 제안하며, 입력의 알려진 부분을 기반으로 알려지지 않은 부분의 임베딩을 예측하여 픽셀 재구성 또는 부정 쌍 대신 표현을 학습하는 방법입니다. 주행은 특히 매력적인 응용 분야입니다: LiDAR 또는 카메라 공간에서 마스킹된 영역은 여러 가능한 표면에 해당할 수 있지만, 의미(예: “차의 뒷부분”, “트럭 뒤의 공백”)는 임베딩 공간에서 안정적일 수 있습니다. JEPA 스타일 방법은 따라서 부분 관찰 가능성 내재 불확실성과 더 잘 일치할 수 있습니다. 예를 들어, JEPA 기반 LiDAR 사전 훈련은 마스킹된 영역에 대한 BEV 임베딩을 예측하고 명시적 분산 정규화를 사용하여 표현 붕괴를 방지하며, 이는 밀도 검출에서 일관된 성능 향상을 가져오며 밀집 재구성 대비 사전 훈련 계산을 감소시키는 것을 수반합니다.

세계모델은 학습을 안정화하고 샘플 효율성을 개선하는 데 도움이 되는 이산형 또는 구조적인 잠재 공간에서도 혜택을 받습니다. 벡터 양자화 표현은 하나의 경로를 제공하지만 코드북 붕괴가 용량을 제한할 수 있습니다. 클러스터링 기반 VQ 업데이트와 같은 온라인 코드북 학습 전략은 모든 코드벡터를 활성화하여 활용도 및 재구성/생산 품질을 개선하도록 목표합니다. 주행에서는 이산형 잠재 공간이 제어 가능성, 효율적인 롤아웃 지원, 기하학적 요소와 의미적 요소 간의 연결 다리로 작용할 수 있습니다.

공간 세계 상태: BEV, 점유 및 기하학적 추상화

많은 주행 세계모델은 순수하게 추상적인 잠재 벡터가 아닌 공간적으로 근거한 세계 상태를 채택합니다. BEV 표현은 플래닝에 맞는 편리한 좌표 프레임을 제공하며, 도로, 운전 가능한 공간 및 다른 에이전트를 자연스럽게 나타내고 센서 융합을 용이하게 합니다. BEV 표현은 시점 변화의 부담을 줄여 모델이 관점을 바꾸는 것보다 동역학에 집중할 수 있게 합니다. 결과적으로, BEV 기능은 인식 및 예측 모두를 위한 중간 상태로 널리 사용되며 세계 모델링의 자연스러운 서브스트레이트입니다.

점유 기반 표현은 안전이 중요한 3D 공백과 가려짐을 모델링하는 데 BEV를 확장합니다. 점유를 예측하는 세계모델은 충돌 확인, 가시성 추론 및 불확실성 하에서의 계획을 지원할 수 있습니다. 최근 LiDAR 기반 세계모델은 카메라만으로 생성이 시각적으로는 합리적이지만 기하학적으로 일관되지 않을 수 있다는 점을 강조하며, 이는 물리적 제약을 강제하고 3D 구조를 유지하는 것이 중요함을 보여줍니다. 이러한 작업은 객체뿐만 아니라 공백도 표현하는 것의 중요성을 강조합니다. 공백의 부재가 존재와 마찬가지로 계획 관련성이 있기 때문입니다.

기하학적 추상화는 또한 맵핑과 장면 사전에 밀접하게 연결되어 있습니다. 고정밀도 맵은 차선 구조, 경계 및 횡단보도를 인코딩하며, 몇몇 세계모델 파이프라인은 맵을 생성 신호 또는 예측해야 하는 잠재 요소로 처리합니다. 에이전트 궤적과 지도 구조를 공동으로 추론하는 방법은 생성된 미래가 도로 기하학 및 교통 규칙을 준수하도록 보장하려고 합니다. 또한 “물리 세계모델"에 대한 조사는 훈련 분포를 벗어나서 예측할 때 특히 물리적으로 근거한 구조와 인과 관계를 포착하는 효과적인 세계모델이 필요함을 강조합니다.

트랜스포머, 주의 및 상호작용 중심 모델링

트랜스포머와 주의 메커니즘은 장거리 의존성을 지원하고 다변량 입력 간 유연한 융합을 가능하게 하기 때문에 자율 주행에 중추적인 역할을 합니다. 인식과 예측에서 주의는 가장 관련 있는 행동자 및 장면의 영역에 계산력을 집중시키고, 에이전트 간 상호작용을 모델링하는 자연스러운 방법을 제공합니다. 트랜스포머 기반 아키텍처는 현대 자동차 세계모델에서 널리 사용되며 특히 다중 뷰 이미지, 포인트 클라우드 및 맵 특징을 결합할 때 효과적입니다.

상호작용 중심 모델링은 다른 행동자가 서로에게 반응하고 에고 차량에 반응하기 때문에 중요합니다. 에이전트를 독립적으로 취급하는 세계모델은 밀집 교통, 합류, 교차로 및 기타 상호 작용 컨텍스트에서 체계적으로 실패할 수 있습니다. 최근 연구는 행동자-행동자 결합, 의도, 우월권을 포착하기 위해 주의 또는 그래프 스타일 메시지 패싱을 사용하는 표현을 강조합니다. 이러한 아이디어는 몸에 밴 학습에서 더 넓은 트렌드와 일치하며, 세계모델이 단순히 수동적인 동역학을 나타내는 것이 아니라 행동의 결과 및 다른 사람들의 전략적 반응도 나타내야 한다는 것입니다.

트랜스포머는 또한 자기 학습 사전 훈련과 큰 규모의 “_FOUNDATION-STYLE” 모델 구축에 영향을 미치며, 다양한 훈련 데이터가 있는 경우 충분히 표현력이 있으면 표현, 예측 및 계획을 공동으로 훈련할 수 있다는 것을 주장하는 세계모델 대규모 훈련 방식 탐구를 지원합니다. 이러한 관점은 시각과 제어를 단일 학습된 모델로 통합하는 방법에 대한 더 넓은 논의와 연결되며, 감지 및 제어에 모두 조건을 설정할 수 있는 아키텍처를 동기화합니다.



📊 논문 시각자료 (Figures)

Figure 1



Figure 2



Figure 3



Figure 4



Figure 5



Figure 6



Figure 7



Figure 8



Figure 9



Figure 10



Figure 11



Figure 12



Figure 13



Figure 14



Figure 15



Figure 16



Figure 17



Figure 18



Figure 19



Figure 20



Figure 21



Figure 22



Figure 23



Figure 24



Figure 25



Figure 26



Figure 27



감사의 말씀

이 글의 저작권은 연구하신 과학자분들께 있으며, 인류 문명 발전에 공헌해주신 노고에 감사를 드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키