스노우 환경 UAV 차량 검출을 위한 대비학습 기반 사이드로드 프레임워크
초록
본 논문은 눈이 많이 쌓인 북유럽 지역 UAV 영상에서 차량 검출 성능을 향상시키기 위해, 라벨이 없는 데이터를 활용한 대비학습(FM‑PaCL)으로 경량 CNN 특성 추출기를 사전학습하고, 이를 고정된 YOLO11n 백본에 사이드로드하여 동적 특징 융합을 수행한다. 제안 방법은 NVD 데이터셋에서 mAP50 기준 8.9%p(전체)·2.8%p(영상별) 향상을 달성한다.
상세 분석
이 연구는 UAV 기반 차량 검출이 눈덮인 환경에서 겪는 가시성 저하와 도메인 쉬프트 문제를 두 가지 축으로 해결한다. 첫 번째는 라벨이 없는 대규모 영상에서 얻은 도메인 특화 특징을 대비학습으로 학습한다는 점이다. 기존 대비학습(SimCLR, MoCo 등)은 전체 이미지 혹은 이미지 패치를 전역 임베딩으로 압축하지만, 작은 객체를 탐지해야 하는 UAV 영상에서는 이러한 전역 표현이 미세한 공간 정보를 잃는다. 저자들은 이를 보완하기 위해 Feature‑Map‑Patch Contrastive Learning(FM‑PaCL)을 제안한다. FM‑PaCL은 사이드 CNN의 중간 특성맵을 슬라이딩 윈도우로 겹치는 패치로 분할하고, 각 패치를 MLP 헤드에 통과시켜 로컬 임베딩을 만든 뒤, 동일 위치 패치를 양쪽 포토메트릭 변형(view)에서 정답(positive)으로, 다른 위치·다른 이미지 패치를 negative로 삼아 InfoNCE 손실을 최소화한다. 이 과정에서 only photometric augmentations을 사용해 패치 위치 정합성을 유지함으로써, 작은 차량의 텍스처·모서리 정보를 보존한다.
두 번째는 사전학습된 사이드 CNN을 고정된 YOLO11n 백본에 “사이드로드”하고, 두 특성 흐름을 동적 융합하는 단계이다. 고정(freeze) 전략은 COCO에서 사전학습된 YOLO 백본이 제공하는 일반 시각 지식을 보존하고, 동시에 FM‑PaCL이 학습한 도메인‑특화 특징이 망가지는 것을 방지한다. 정적 합산·연결 방식은 두 특징의 스케일·분포 차이로 인해 성능 저하가 발생했으며, 저자들은 가중치 게이팅, SE(gate) 등 동적 어텐션 기반 융합을 실험했다. 최종적으로 선택된 동적 게이팅 메커니즘은 입력 이미지와 학습 목표에 따라 각 채널의 중요도를 자동 조정한다.
실험에서는 NVD(Nordic Vehicle Dataset)에서 라벨이 있는 데이터만 사용한 YOLO11n baseline 대비 mAP50이 8.9%p 상승했으며, 훈련·검증·테스트가 서로 다른 비디오로 구성된 보다 현실적인 분할에서는 2.8%p 상승을 기록했다. 또한, FM‑PaCL 없이 단순히 백본을 사전학습한 경우 성능이 오히려 감소하는 현상을 관찰해, 도메인‑특화 특징과 일반 특징의 정합이 핵심임을 입증한다.
이 논문의 주요 공헌은 (1) UAV 소형 객체 검출에 적합한 패치‑레벨 대비학습 기법, (2) 두 종류의 특징을 동적으로 결합하는 안정적인 사이드로드 구조, (3) 라벨이 부족한 환경에서도 경량 모델(YOLO11n) 성능을 크게 끌어올린 실증적 결과다. 한계점으로는 FM‑PaCL이 고해상도 특성맵을 필요로 하여 메모리 요구량이 증가하고, 동적 융합 모듈이 추가적인 연산 비용을 초래한다는 점이다. 향후 연구에서는 메모리 효율적인 패치 샘플링, 멀티‑스케일 융합, 그리고 다른 경량 탐지기(예: NanoDet)와의 일반화 검증이 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기