Title: A Survey of Autonomous Driving: Common Practices and Emerging Technologies
ArXiv ID: 1906.05113
발행일: 2020-04-06
저자: Ekim Yurtsever, Jacob Lambert, Alexander Carballo, Kazuya Takeda
📝 초록 (Abstract)
자율주행 시스템(ADS)은 안전하고 편안하며 효율적인 운전 경험을 제공할 것으로 기대되고 있지만, ADS를 장착한 차량에 관련된 사망사고가 증가하고 있습니다. 최신 상태의 강건성을 개선하지 않는 한 ADS의 잠재력을 완전히 실현하기는 어려울 것입니다. 이 논문은 해결되지 않은 문제들을 검토하고 자율주행 시스템의 기술적 측면을 조사합니다. 현재의 과제, 고수준 시스템 아키텍처, 새로운 방법론 및 핵심 기능: 정위성, 지도, 인식, 계획화, 인간-기계 인터페이스에 대한 연구가 상세히 검토되었습니다. 또한 최신 상태의 기술을 자체 플랫폼에서 구현하고 실제 운전 환경에서 다양한 알고리즘을 비교했습니다. 논문은 ADS 개발을 위한 사용 가능한 데이터셋과 도구에 대한 개요로 마무리됩니다.
💡 논문 핵심 해설 (Deep Analysis)
This paper surveys the state and future of autonomous driving systems (ADS). It examines unresolved issues, technical aspects, core functionalities, and evaluates performance in real-world settings. ADSs promise a safer and more efficient driving experience but have been marred by recent fatalities, raising concerns about their robustness. The paper explores new methodologies and technical aspects to address these challenges.
Key areas include localization, mapping, perception, planning, and human-machine interfaces. A significant focus is on the ‘perception’ aspect, evaluating various algorithms in real-world driving conditions. This includes image-based object detection, 3D object detection, road and lane detection.
The paper provides a comprehensive analysis of these functionalities, offering insights into the most effective methodologies based on performance evaluations. It also highlights existing datasets and tools for ADS development, providing a roadmap for future advancements in autonomous driving technology. By addressing current issues and proposing solutions, this research contributes to building safer and more efficient autonomous vehicles.
📄 논문 본문 발췌 (Translation)
---
# 결론
이 자율주행 시스템에 대한 조사는 몇 가지 주요 혁신과 현재의 시스템들을 개괄했습니다. 자율주행은 매력적이며 이미 소비자들에게 마케팅되고 있지만, 이 조사에서는 여전히 명확한 연구 간극이 남아 있음을 보여줍니다. 여러 아키텍처 모델들이 제안되었으며, 완전 모듈형에서 단일 엔드-투-엔드까지 각각의 단점이 있습니다. 정위성, 지도 및 인식에 대한 최적 센싱 방식은 여전히 논란 중이며 알고리즘들은 여전히 정확성과 효율성이 부족하며 온라인 평가가 필요함을 드러냈습니다. 이상적인 도로 조건이 아닌 상황은 여전히 해결되지 않은 문제이며, 혹독한 날씨에 대응하는 것도 마찬가지입니다. 차량 간 통신은 아직 초기 단계이며 복잡한 인프라 구축이 필요하기 때문에 중앙 집중형 클라우드 기반 정보 관리는 아직 구현되지 않았습니다. 인간-기계 상호 작용은 연구가 부족한 분야로 많은 해결해야 할 문제가 있습니다.
자율주행 시스템의 개발은 과학적 학문과 새로운 기술의 발전에 의존합니다. 이 조사는 이전 방법론을 극복하거나 대안을 제시할 가능성이 있는 최근 연구 동향을 논의했습니다. 이 조사 결과, 교차 학제적인 학계 협력 및 산업계와 일반 대중의 지원을 통해 남은 도전 과제들을 해결할 수 있습니다. 모든 단계에서 안정성을 보장하기 위한 집중적 노력이 이루어진다면, 안전하고 효율적인 도로는 바로 앞에 있을 것입니다.
인식
주변 환경을 인식하고 안전한 탐색에 필요한 정보를 추출하는 것은 ADS의 중요한 목표입니다. 다양한 작업들이 센싱 방식별로 ‘인식’ 범주에 속합니다. 컴퓨터 비전 연구에 기반해 카메라는 가장 일반적으로 사용되는 센서이며 3D 비전은 강력한 대안 또는 보충으로 자리잡았습니다.
이 절의 나머지는 핵심 인식 작업들을 다룹니다. 이미지 기반 객체 검출은 7.1.1, 세분화는 7.1.2, 3D 객체 검출은 7.1.3, 도로 및 차선 감지는 7.3에서, 객체 추적은 7.2에서 설명합니다.
ImageNet1K 테스트 세트에서의 2D 경계 상자 추정 아키텍처 비교, Top 5% 오차 순으로 정렬되었습니다. 파라미터 수 (Num. Params)와 층 수 (Num. Layers), 알고리즘의 계산 비용을 암시합니다.
객체 검출은 관심 있는 객체들의 위치와 크기를 식별하는 것을 의미합니다. 교통 신호, 표지판, 횡단보도 등 정적인 객체들부터 다른 차량, 보행자 또는 자전거 타기까지 동적 객체들이 모두 ADS에 중요합니다. 일반화된 객체 검출은 컴퓨터 비전에서 오랫동안 중앙 문제로 다루어져 왔으며, 특정 클래스의 객체가 이미지 내에 존재하는지를 판단하고 이를 사각형 경계 상자로 크기를 결정하는 것이 목표입니다. 이 절에서는 주요한 최신 방법론들을 주로 논의하며, 이것은 ADS 파이프라인에서 여러 다른 작업들의 출발점이 됩니다.
객체 인식 연구는 50년 이상 지속되었지만, 최근에야 즉 1990년대 후반과 2000년 초에 알고리즘 성능이 운전 자동화에 유의미한 수준에 도달했습니다. 2012년에는 깊은 합성곱 신경망(DCNN)인 AlexNet이 ImageNet 이미지 인식 챌린지에서 놀라운 결과를 보여주었습니다. 이로 인해 초점이 감독학습, 특히 심층 학습으로 완전히 전환되었습니다. 일반적인 이미지 기반 객체 검출에 대한 광범위한 조사가 존재하지만 여기서는 ADS에 적용할 수 있는 최신 방법론에 집중합니다.
현재 모든 최신 방법들이 DCNN을 사용하고 있지만, 분명한 차이점이 있습니다:
단일 스테이지 검출 프레임워크는 객체 위치와 클래스 예측을 동시에 생성하는 단일 네트워크를 사용합니다.
영역 제안 검출 프레임워크는 일반적인 관심 영역을 먼저 제시한 다음 별도의 분류기 네트워크로 카테고리화하는 두 가지 구별된 스테이지에서 작동합니다.
영역 제안 방법들은 현재 검출 벤치마크를 주도하고 있지만, 이를 위해서는 높은 계산력이 필요하며 일반적으로 구현, 학습 및 미세 조정이 어렵습니다. 반면 단일 스테이지 검출 알고리즘들은 빠른 추론 시간과 낮은 메모리 비용을 가지며 실시간 운전 자동화에 적합합니다. YOLO (You Only Look Once)는 인기 있는 단일 스테이지 검출기가며 지속적으로 개선되었습니다. 그들의 네트워크는 입력 이미지를 크게 줄이는 과정에서 이미지 특징을 추출하는 DCNN을 사용합니다. 완전 연결 신경망은 각 그리드 셀과 클래스에 대해 클래스 확률 및 경계 상자 매개변수를 예측합니다. 이 설계로 YOLO는 매우 빠르며 전체 모델이 45 FPS, 작은 모델이 약간의 정확도 희생을 통해 155 FPS에서 작동합니다. 최근 버전인 YOLOv2, YOLO9000 및 YOLOv3는 PASCAL VOC와 MS COCO 벤치마크를 잠시 지배하면서 저 계산 및 메모리 비용을 유지했습니다. 또 다른 널리 사용되는 알고리즘은 싱글샷 검출기(SSD)로, VGG와 같은 표준 DCNN 아키텍처를 사용하여 공개 벤치마크에서 경쟁적인 결과를 달성합니다. SSD는 YOLO와 유사하게 굵은 그리드에서 검출을 수행하지만, DCNN 초기에 얻어진 높은 해상도 특징을 사용하여 작은 객체의 검출 및 위치 추적을 개선합니다.
ADS에서 정확도와 계산 비용을 고려하는 것은 필수적입니다. 검출이 신뢰할 수 있어야 하며, 플래닝 및 제어 모듈이 이러한 객체에 반응하기 위해 가능한 한 많은 시간이 필요합니다. 따라서 단일 스테이지 검출기는 종종 ADS의 검출 알고리즘으로 선택됩니다. 그러나 1에 표시된 대로, 영역 제안 네트워크(RPN)은 두 스테이지 검출 프레임워크에서 객체 인식 및 위치 추적 정확도 측면에서 뛰어난 성능을 보여주며 최근 몇 년 동안 계산 비용이 크게 개선되었습니다. 또한 세분화와 같은 검출 관련 작업에 더 적합합니다. 전달 학습을 통해 RPN은 여러 인식 작업을 동시에 처리하는 것이 점차 온라인 응용 분야에서 가능해지고 있습니다. RPN들은 가까운 미래에 ADS 애플리케이션에서 단일 스테이지 검출 네트워크를 대체할 수 있습니다.
나고야 대학교 근처의 도시 풍경으로, 실험 차량이 수집한 카메라 및 라이다 데이터와 최신 인식 알고리즘을 사용한 객체 검출 결과를 보여줍니다. (a) 전방 카메라의 시점, YOLOv3의 경계 상자 결과 ()와 (b) MaskRCNN()의 인스턴스 세그멘테이션 결과. (c) DeepLabv3()의 세분화 마스크. (d) 3D 라이다 데이터와 SECOND()에서 객체 검출 결과. 네 가지 중 3D 인식 알고리즘이 유일하게 검출된 객체까지의 거리를 출력합니다.
전방향 및 이벤트 카메라 기반 인식: 고급 자율화를 위해서는 최소한 팬오미니언 비전이 필요합니다. 이것은 카메라 배열을 통해 달성될 수 있지만, 각 카메라 간의 정밀한 외부 캘리브레이션이 가능하도록 이미지 스티칭이 필요합니다. 대안적으로 전방향 카메라를 사용하거나 매우 넓은 각도의 피시아이 렌즈가 있는 작은 배열의 카메라를 사용할 수 있습니다. 그러나 이러한 방법들은 본질적 캘리브레이션이 어렵습니다; 구형 이미지는 크게 왜곡되어 있으며, 구형 이미지를 생성하는 카메라 모델에 따라 거울 반사 또는 피시아이 렌즈 왜곡을 고려해야 합니다. 모델 및 캘리브레이션의 정확성은 왜곡되지 않은 이미지의 품질을 결정하며 이전에 설명된 2D 비전 알고리즘이 사용됩니다. [fig:ricoh]에서 피시아이 렌즈가 두 개의 구형 이미지를 생성한 후 하나의 팬오미니언 이미지로 결합되는 예를 볼 수 있습니다. 일부 왜곡은 불가피하지만 이러한 캘리브레이션의 난관에도 불구하고 전방향 카메라는 SLAM 및 3D 재구성과 같은 다양한 응용 분야에서 사용되어 왔습니다.
이벤트 카메라는 최근에 등장한 모달로, 관찰된 장면에서 발생하는 이동으로 인해 비동기 이벤트를 생성합니다. 6에 보여진 것처럼 드라이빙 장면의 전체적인 위험 수준을 평가하는 데 사용되는 오픈소스 깊은 스페이티오-임페리얼 비디오 기반 위험 검출 프레임워크를 활용했습니다.