다양한 기후 조건에서 가려진 차량 탐지를 위한 교통 감시 대규모 벤치마크 TSBOW
초록
본 논문은 극한 기후 상황에서 CCTV 영상을 이용한 차량·보행자 검출을 목표로, 32시간 이상, 48,000개 이상의 수동 라벨과 3.2백만 개의 반자동 라벨을 포함하는 TSBOW 데이터셋을 제시한다. 8개의 교통 참여자 클래스를 정의하고, 가시성 저하·객체 중첩이 심한 상황을 체계적으로 수집·주석하였다. YOLOv8‑x, YOLOv11‑x, YOLOv12‑x 및 RT‑DETR‑x 모델을 기반으로 한 베이스라인을 제공해 실시간 검출 성능과 기후·스케일별 어려움을 정량화한다.
상세 분석
TSBOW는 기존 교통 감시 데이터셋이 주로 맑음·가벼운 비·눈 정도에 머물렀던 점을 보완한다. 4계절 전 기간에 걸쳐 198개의 비디오를 52개의 고유 씬으로 구분하고, ‘정상·흐림·비·눈·재난’ 5가지 날씨 라벨을 부여했다. 특히 재난 시나리오는 강풍·폭설 등으로 영상이 급격히 흐려지는 상황을 포함해, 현재 객체 검출 모델이 가장 취약한 영역을 명시한다. 라벨링 파이프라인은(1) 수동 라벨링 →(2) SOTA 모델(SOTA detection model, 여기서는 SO‑TA) 미세조정 →(3) 자동 라벨링 →(4) 교차 검증·후처리 순으로 구성돼, 라벨 품질을 유지하면서 대규모 프레임을 효율적으로 확보한다. 클래스는 차량(소형·대형·트럭·버스), 보행자, 마이크로모빌리티, 기타 등 8종으로, 기존 UA‑DETRAC·UA‑VDT가 제공하던 45종에 비해 세분화돼 있다. 스케일은 카메라 높이·거리 기준으로 ‘세밀·중간·거친’ 3단계로 정의했으며, 도심·표준·대로(urban, standard, boulevard) 3가지 도로 유형을 포함한다. 이는 객체 크기·밀도·중첩 정도가 크게 달라지는 실제 교통 현장을 그대로 재현한다는 의미다. 베이스라인 실험에서는 YOLOv11‑x가 mAP 0.42(전체)로 가장 높은 성능을 보였지만, 눈·흐림 재난 구간에서는 mAP가 0.18 이하로 급락했다. 이는 현재 검출기들이 텍스처 손실·배경 혼합에 취약함을 보여준다. 또한 FPS 측면에서 YOLO 시리즈는 3045fps를 유지해 실시간 적용 가능하지만, RT‑DETR‑x는 12fps 수준으로 실시간성에서 뒤처진다. 이러한 결과는 고해상도·고프레임 레이트 영상에서도 기후 변화가 모델 성능을 크게 좌우한다는 점을 강조한다. 마지막으로, 데이터셋 공개와 함께 평가 프로토콜을 제공함으로써 향후 연구자들이 기후 적응형 검출, 도메인 적응, 멀티모달(LiDAR·열영상) 융합 등 다양한 방향으로 확장할 수 있는 기반을 마련한다.
댓글 및 학술 토론
Loading comments...
의견 남기기