엔드투엔드 자율주행의 시대: 규칙 기반에서 대규모 운전 모델로의 전환

본 논문은 전통적인 모듈식 규칙 기반 자율주행 스택이 한계에 부딪히면서, 대규모 데이터와 트랜스포머 기반 네트워크를 활용한 엔드투엔드(End‑to‑End, E2E) 운전 모델(Large Driving Models, LDM)로 이동하고 있음을 분석한다. Tesla FSD V12‑V14, Rivian Unified Intelligence, NVIDIA Cosmos 등 최신 상용 사례를 통해 아키텍처, 배포 전략, 안전 검증, 그리고 L2++(Sup…

저자: Eduardo Nebot, Julie Stephany Berrio Perez

엔드투엔드 자율주행의 시대: 규칙 기반에서 대규모 운전 모델로의 전환
본 논문은 자율주행 기술이 규칙 기반 모듈식 파이프라인에서 대규모 엔드투엔드(End‑to‑End, E2E) 운전 모델(Large Driving Models, LDM)로 급격히 전환하고 있음을 체계적으로 정리한다. 서론에서는 20년 넘게 지배해 온 Sense‑Perceive‑Plan‑Control 구조가 HD‑Map 및 다중 센서(LiDAR, 레이더)에 과도하게 의존해 비용·유지보수 측면에서 비효율적이며, 복잡한 도시 교통의 롱테일 상황을 다루는 데 한계가 있음을 지적한다. 제2장에서는 전통적 모듈식 아키텍처의 구성 요소(센싱, 매핑·로컬라이제이션, 퍼셉션, 프레딕션, 플래닝, 컨트롤)를 상세히 설명하고, 각 단계가 독립적으로 설계·디버깅될 수 있는 장점과 동시에 인터페이스 오류, 규칙 업데이트 비용, 그리고 HD‑Map 의존성으로 인한 확장성 문제를 강조한다. 제3장에서는 E2E 학습 패러다임을 소개한다. 여기서는 원시 센서 데이터(주로 카메라 이미지)와 차량 동역학 정보를 직접 입력으로 받아 스티어링·가속 명령을 출력하는 단일 신경망이 전체 주행 과정을 최적화한다. 초기 NVIDIA DAVE와 같은 소규모 E2E 시도는 고속도로 주행에 국한됐지만, 2020년대 들어 데이터 규모가 수백만 시간 수준으로 확대되면서 모델이 복잡한 보행자 행동, 건설 구역, 악천후 등 다양한 롱테일 상황을 스스로 학습하게 되었다. LDM의 핵심은 트랜스포머 기반 시계열 모델이다. 다중 초에 걸친 차량·환경 상태를 토큰화하고 어텐션 메커니즘으로 공간‑시간 상관관계를 포착한다. 학습은 두 단계로 진행된다. Phase 1은 대규모 인간 운전 로그를 행동 복제(Behavior Cloning) 방식으로 학습해 ‘좋은 인간 운전자’를 모방한다. 이 단계는 일반 주행에서 부드럽고 사회적으로 수용 가능한 행동을 확보한다. 그러나 희귀 상황에 대한 샘플이 부족해 롱테일에 대한 일반화가 제한된다. Phase 2는 강화학습 및 엣지‑케이스 중심 학습을 도입한다. 시뮬레이션·합성 시나리오를 활용해 급격한 차선 침입, 비정형 건설 구역, 이상 보행자 행동 등 위험도가 높은 상황을 인위적으로 생성하고, 충돌 회피·안전 거리·법규 준수·승차감 최적화 등을 보상으로 설정해 인간보다 안전한 행동을 유도한다. 이 과정에서 모델은 지속적으로 파인‑튜닝되고, 새로운 데이터가 자동으로 선택·증강되어 주기적인 업데이트가 가능해진다. 제4장에서는 로보택시 현황을 비교한다. WaYmo는 카메라·LiDAR·레이다를 결합한 센서 퓨전 기반 레벨 4 시스템을 오스틴에서 2025년 3월에 시범 운영했으며, 지오펜싱·단계적 영역 확대·그림자 모드 테스트 등 체계적인 ODD 관리 방식을 적용했다. 반면 Tesla는 2025년 6월 동일 지역에서 카메라‑전용 E2E 아키텍처를 기반으로 로보택시를 배치했으며, 원격 모니터링·인간 운전자의 안전 감독(‘Supervised E2E’)을 통해 완전 무인에 가까운 레벨 4 + L2++ 형태를 구현했다. 두 접근법 모두 센서 성능 저하, 악천후, 건설 구역 등에서 공통적인 도전 과제를 겪으며, 사고 발생 시 미디어와 규제 기관의 관심이 집중된다. 제5장에서는 Tesla의 최신 FSD V13‑V14을 중심으로 ‘Supervised E2E’(L2++) 제품군을 분석한다. 이 시스템은 카메라 입력 외에 오디오 인식, 멀티‑초 시계열 추론, Mixture‑of‑Experts 구조를 도입해 모델 용량을 효율적으로 확장한다. 인간 운전자는 차량 내부에서 ‘안전 감독자’ 역할을 수행하며, 필요 시 원격 개입이 가능하도록 설계되었다. 초기 운영 데이터는 복잡한 교차로·다중 차선·보행자 밀집 구역에서 기존 모듈식 시스템 대비 높은 성공률을 보였으며, 승차감 및 주행 편안함에서도 긍정적인 평가를 받았다. 제6장에서는 이러한 E2E 기술이 자동차 산업을 넘어 인간형 로봇, 드론, 물류 자동화 등 다른 embodied AI 분야에 적용될 가능성을 탐색한다. LDM이 학습한 공간‑시간 어텐션 메커니즘은 복잡한 물리적 상호작용을 필요로 하는 로봇 제어에 직접 전이될 수 있으며, 대규모 시뮬레이션 플랫폼(NVIDIA Cosmos)과 결합하면 안전 검증과 정책 업데이트가 빠르게 이루어질 수 있다. 마지막으로 제7장은 결론으로, E2E와 LDM이 자율주행의 비용 구조를 크게 낮추고, 롱테일 상황에 대한 일반화를 가능하게 함으로써 상용화 가속화에 핵심적인 역할을 할 것임을 강조한다. 동시에 데이터·알고리즘 투명성, 안전 검증 표준화, 규제 대응 등 새로운 과제가 부상하고 있으며, OEM‑플랫폼 간 협업과 오픈소스 생태계 조성이 향후 성공 열쇠가 될 것으로 전망한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기