공중 이미지 초소형 객체 탐지를 위한 MoonNet 설계와 최적화

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

**
본 논문은 YOLOv8 기반의 한 단계 검출기에 입력 해상도 확대, 맞춤형 데이터 증강, 혼합형 주의 메커니즘(SE + CBAM) 및 대체 게이팅 함수(1 + tanh) 적용을 통해 초소형 객체 검출 성능을 크게 향상시킨다. 제안된 MoonNet 백본은 기존 YOLOv8 대비 AP₅₀을 0.667까지 끌어올렸으며, VisDrone 벤치마크에서도 HRNet‑MoonNet 조합으로 최첨단 결과를 달성한다.

상세 분석

**
이 연구는 초소형 객체가 차지하는 픽셀 수가 극히 적은 항공 영상에서 흔히 발생하는 “해상도‑특징 손실” 문제를 네 가지 전략으로 해결한다. 첫 번째 전략은 입력 이미지 해상도를 640 × 640 → 928 × 928 로 확대함으로써, 작은 물체의 세부 정보를 더 많이 보존한다. 실험 결과, 해상도 확대만으로 AP₅₀이 0.621에서 0.696으로 12 %p 상승했으며, Recall도 0.539→0.613으로 개선되었다.

두 번째 전략은 데이터 증강이다. 기본 Ultralytics 증강 외에 기하학 변환(회전·스케일·플립)과 색상 변환(HSV 조정)을 별도 패키지로 구성했으며, 특히 클래스 불균형이 심한 초소형 객체에 대해 복제·삽입(copy‑paste) 방식을 적용했다. 가장 효과적인 조합은 기본 + 기하학 변환으로, AP₅₀이 0.621→0.616 수준이지만, 전체 파이프라인에 적용했을 때 증강이 미세한 성능 향상을 제공한다는 점을 확인했다.

세 번째 전략은 주의 메커니즘의 혼합 적용이다. 기존 연구에서 SE 블록은 채널 간 상관관계를, CBAM은 채널·공간 두 축의 주의를 동시에 학습한다는 장점이 알려져 있다. 저자는 YOLOv8 백본의 여러 레이어에 SE와 CBAM을 교차 배치해 “Mixture of Orthogonal Neural‑modules Network”(MoonNet)를 설계하였다. 실험에서는 단일형(SE‑only, CBAM‑only)보다 혼합형이 일관적으로 높은 AP₅₀(0.667)과 Recall(0.486)을 기록했다. 특히, SE와 CBAM을 순차적으로 적용함으로써 서로 보완적인 특징 강조가 가능함을 입증했다.

네 번째 전략은 주의 모듈의 게이팅 함수를 기존 시그모이드에서 1 + tanh(·) 로 교체한 것이다. 이 함수는 입력 특성을 그대로 유지하면서도 작은 값에 대해 더 큰 기울기를 제공해, 미세한 특징이 소멸되지 않게 한다. YOLOv8 기반에서는 큰 차이를 보이지 않았지만, YOLC(다중 해상도 HRNet 기반)와 결합했을 때 AP₅₀이 0.530→0.550(+3.8 %p)으로 의미 있는 향상을 가져왔다.

전체 파이프라인을 150 epoch 학습시킨 결과, MoonNet 백본을 적용한 YOLOv8n‑obb 모델은 기본 모델 대비 AP₅₀이 0.491→0.667(+36 %p)으로 크게 상승했으며, GFLOPs와 레이턴시 증가가 0.1 GFLOP, 0.9 ms에 불과해 실시간 적용 가능성을 유지한다. VisDrone 벤치마크에서는 HRNet + MoonNet(sigmoid) 조합이 0.530, 1 +tanh 조합이 0.550의 AP₅₀을 기록, 기존 최첨단인 ClusDet(0.504)과 DMNet(0.481)을 능가한다.

이러한 결과는 (1) 고해상도 입력이 초소형 객체 검출에 필수적이며, (2) 적절히 설계된 데이터 증강이 클래스 불균형을 완화하고, (3) 서로 다른 주의 메커니즘을 혼합하면 채널·공간 정보를 보다 풍부하게 활용할 수 있음을 시사한다. 또한, 대체 게이팅 함수는 특정 아키텍처(YOLC)와 결합될 때 효과가 극대화된다는 점에서, 향후 다양한 백본·헤드 구조에 맞춤형 게이팅 설계가 연구될 여지를 제공한다.

공중 이미지 초소형 객체 탐지를 위한 MoonNet 설계와 최적화

초록

상세 분석

댓글 및 학술 토론

의견 남기기