UAV 객체 탐지를 위한 적응형 이미지 줌‑인 및 바운딩 박스 변환 기법
초록
**
본 논문은 UAV 영상에서 작은 객체가 차지하는 비율이 낮아 검출이 어려운 문제를 해결하고자, 이미지 전체를 비균일하게 확대하는 적응형 줌‑인 프레임워크인 ZoomDet을 제안한다. 경량 오프셋 예측 모듈과 박스 기반 줌 목표 함수를 통해 객체 중심 영역을 자동으로 확대하고, 코너 정렬 방식의 바운딩 박스 변환을 적용해 확대된 이미지에서 학습·추론이 가능하도록 설계하였다. VisDrone, UAVDT, SeaDronesSee 등 세 데이터셋에서 Faster R-CNN·YOLOv8 기반 모델에 적용했을 때 평균 mAP가 28%p 상승하면서도 추가 지연은 23 ms 수준에 불과함을 입증한다.
**
상세 분석
**
ZoomDet의 핵심은 두 단계로 구성된다. 첫 번째는 입력 이미지에 비균일 오프셋 맵을 예측하는 경량 네트워크이다. 이 오프셋은 기존 Deformable Convolution에서 영감을 받아, 각 픽셀의 좌표를 원본 격자에서 새로운 샘플링 격자로 매핑한다. 오프셋 학습은 “박스 기반 줌 목표”(box‑based zooming objective)로 지도된다. 구체적으로, 예측된 오프셋에 의해 변형된 이미지에서 각 객체의 바운딩 박스 면적 비율(zoomed area / original area)을 최대화하도록 손실을 설계했으며, 이는 작은 객체가 더 크게 보이게 하면서 주변 컨텍스트 왜곡을 최소화한다. 기존의 Saliency‑based 방법이 Gaussian 커널과 복잡한 가중 평균을 사용해 왜곡을 초래하는 반면, ZoomDet은 직접적인 박스 면적 증대를 목표로 하므로 객체와 배경의 구조적 일관성을 유지한다.
두 번째는 변형된 이미지와 원본 이미지 사이의 좌표 변환 문제를 해결하는 바운딩 박스 변환 모듈이다. 변형 과정에서 좌표 매핑이 비선형이므로, GT 박스를 직접 변형하기 어렵다. 저자들은 박스의 네 코너 좌표를 각각 변형된 이미지의 가장 가까운 매핑 좌표로 찾아 “코너 정렬”(corner‑aligned) 변환을 수행한다. 이때 forward mapping 테이블을 lookup table 형태로 저장하고, inverse mapping은 nearest‑neighbor 검색을 통해 근사한다. 학습 단계에서는 변형된 이미지에 GT 박스를 투영해 detector를 학습하고, 추론 단계에서는 detector가 출력한 확대된 박스를 다시 원본 좌표계로 역변환한다. 실험적으로 forward‑inverse 변환 후 IoU 손실이 미미함을 확인했으며, 이는 변환 오차가 검출 성능에 크게 영향을 주지 않음을 의미한다.
ZoomDet은 detector‑agnostic 설계로, Faster R-CNN(2‑stage)와 YOLOv8(1‑stage) 모두에 적용 가능하다. 실험 결과, SeaDronesSee 데이터셋에서 Faster R-CNN에 적용했을 때 mAP가 8.4 %p 상승했으며, 추가 연산량은 전체 파라미터 0.3 % 증가와 3 ms 미만의 지연만을 초래한다. VisDrone·UAVDT에서도 각각 약 2 %p 이상의 개선을 보였다. 또한, 기존 패치‑기반 줌 기법이나 implicit feature‑zoom 기법과 병합했을 때 소형 객체(APₛ)에서 추가 1 %p 이상의 향상을 얻어, ZoomDet이 다른 확대 전략과 상호 보완적임을 입증한다. 마지막으로, 대규모 항공 비전‑언어 모델(VQA)에도 적용해 시각적 질문에 대한 응답 정확도가 향상되는 사례를 제시, 향후 멀티모달 aerial AI에의 확장 가능성을 시사한다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기