자율주행 차량을 위한 딥러닝 객체 탐지: 원스테이지와 투스테이지 모델 비교

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 연구는 자율주행 시스템에 널리 사용되는 원스테이지 탐지기 YOLOv5와 투스테이지 탐지기 Faster R‑CNN을 동일한 혼합 데이터셋(실제 + 합성)으로 학습·평가하여 정확도(mAP), 재현율, 추론 속도 등 다각적인 지표를 비교한다. 실험 결과 YOLOv5는 전반적인 mAP와 처리 속도에서 우수하지만, 작은 객체·저조도 상황에서는 Faster R‑CNN이 더 높은 검출률을 보인다.

상세 분석

이 논문은 자율주행 차량에 필수적인 객체 탐지 기술을 평가하기 위해 두 가지 대표적인 딥러닝 아키텍처, 즉 원스테이지 방식의 YOLOv5와 투스테이지 방식의 Faster R‑CNN을 선택하였다. 두 모델 모두 최신 프레임워크(YOLOv5는 Ultralytics, Faster R‑CNN은 Detectron2)에서 기본 설정을 유지하며, 학습 하이퍼파라미터는 동일하게 0.01의 학습률, 300 epoch, 배치 사이즈 4로 통일하였다. 이는 아키텍처 자체의 성능 차이를 순수하게 드러내기 위한 설계 선택이다.

데이터셋은 BDD100K(실제 이미지)와 SHIFT(합성 이미지)를 1:1 비율로 결합했으며, 해상도 640×640, 800×800 등 세 가지 규모로 구성된 2k, 3k, 5k 이미지 세트를 각각 50 % 실·합성 비율로 제공한다. 클래스는 자동차, 보행자, 트럭 세 가지로 제한했으며, 각 클래스 비율을 균형 있게 배분하여 모델이 소수 클래스에 편향되지 않도록 설계하였다. 이러한 데이터 구성은 실제 주행 환경의 다양성을 반영하면서도, 합성 데이터를 통해 희귀 상황(예: 저조도, 가림)까지 학습할 수 있게 한다.

성능 평가에서는 평균 정확도(mAP), 재현율(rec), 추론 시간(FPS) 등을 사용하였다. 결과는 다음과 같다.

정확도: 전체 mAP 기준 YOLOv5가 Faster R‑CNN보다 약 2‑3 % 높은 값을 기록했으며, 특히 중·대형 객체(자동차, 트럭)에서 우수했다.
소형·원거리 객체: Faster R‑CNN은 Region Proposal Network(RPN)와 Feature Pyramid Network(FPN) 구조 덕분에 작은 보행자와 멀리 있는 객체에 대해 더 높은 재현율을 보였다.
조명·날씨 조건: 저조도 및 강한 그림자 상황에서 Faster R‑CNN이 잡음에 덜 민감하게 동작했으며, YOLOv5는 일부 경우 false negative이 증가했다.
추론 속도: YOLOv5는 GPU 기준 70‑80 FPS를 달성해 실시간 요구사항을 충분히 만족했지만, Faster R‑CNN은 12‑15 FPS 수준으로 실시간 적용에 제한이 있다.

또한 confidence threshold를 0.3~0.7 구간에서 변동시 두 모델의 Precision‑Recall 곡선을 분석했으며, YOLOv5는 높은 threshold에서도 mAP 감소가 완만한 반면, Faster R‑CNN은 낮은 threshold에서 false positive이 급증한다는 특성을 보였다. 이는 실제 시스템 설계 시 임계값 선택이 모델별로 다르게 최적화되어야 함을 시사한다.

한계점으로는(1) 날씨 변동(비·눈) 데이터가 부족해 전천후 성능을 완전히 검증하지 못함, (2) 클래스가 세 가지로 제한돼 복합 교통 상황(자전거, 신호등 등)에서의 일반화 가능성을 평가하지 못함, (3) 하이퍼파라미터 튜닝을 의도적으로 배제했기 때문에 최적화된 성능을 보여주지는 않는다. 향후 연구에서는 최신 트랜스포머 기반 탐지기(YOLOv8, DETR)와의 비교, 날씨·시계열 데이터 확대, 자동화된 하이퍼파라미터 탐색(Bayesian Optimization) 등을 통해 보다 포괄적인 벤치마크를 구축할 필요가 있다.

전반적으로 이 논문은 자율주행 시스템 설계자가 “속도 우선” 혹은 “정밀도 우선”이라는 요구사항에 따라 적절한 탐지기를 선택할 수 있도록 실험적 근거를 제공한다. 특히, 고해상도 이미지와 대규모 데이터셋에서 YOLOv5가 학습 효율과 실시간 성능 면에서 강점을 보이며, 복잡한 환경·소형 객체 검출이 중요한 시나리오에서는 Faster R‑CNN이 보완적인 역할을 할 수 있음을 명확히 제시한다.

자율주행 차량을 위한 딥러닝 객체 탐지: 원스테이지와 투스테이지 모델 비교

초록

상세 분석

댓글 및 학술 토론

의견 남기기