그라디언트 기반 적외선 소목표 검출 네트워크
초록
본 논문은 적외선 소목표 검출에서 경계 위치 오차와 배경 침잠 문제를 해결하기 위해, 그래디언트 크기 영상을 입력으로 활용한 GGL‑Net을 제안한다. 이 네트워크는 이중‑브랜치 특징 추출 구조와 그래디언트 보조 모듈(GSM), 그리고 양방향 가이드 융합 모듈(TGFM)을 결합해 다중 스케일 특징을 효과적으로 통합한다. NUAA‑SIRST와 NUDT‑SIRST 데이터셋에서 기존 최첨단 방법들을 크게 앞서는 IoU·nIoU 성능을 달성하였다.
상세 분석
GGL‑Net은 적외선 소목표 검출의 핵심 난제인 “목표가 작고 텍스처가 부족해 경계가 흐릿하다”는 점에 주목한다. 기존 딥러닝 기반 방법들은 원본 적외선 영상만을 입력으로 사용해 고주파 에지 정보를 충분히 활용하지 못했으며, 이로 인해 검출된 목표의 경계가 부정확하거나 배경에 묻히는 현상이 빈번했다. 논문은 이러한 한계를 극복하기 위해 그래디언트 크기 영상을 별도 입력으로 도입한다. 그래디언트 영상은 에지 강도를 강조하므로, 작은 목표의 형태적 특성을 보강하는 데 유리하다.
네트워크 구조는 크게 세 부분으로 나뉜다. 첫 번째는 이중‑브랜치 특징 추출기이다. 메인 브랜치는 전통적인 컨볼루션 스테이지(총 5단)로 구성되며, 각 스테이지는 6개의 3×3 Conv 레이어와 SE‑Attention을 포함한다. 보조 브랜치는 그래디언트 영상을 다중 스케일(맥스풀링)로 축소한 뒤, GSM을 통해 메인 브랜치와 결합한다. GSM은 G_Block과 Res 블록으로 이루어져, 단순한 요소별 합산이 아닌 잔차 연결을 통해 그래디언트 정보를 효율적으로 보강한다. 실험에서 Res 구조를 제거하면 IoU가 1.28% 감소하는 등, 잔차 기반 결합이 성능에 크게 기여함을 확인했다.
두 번째는 로컬 대비 학습 모듈이다. 기존 ALCL‑Net에서 제안된 로컬 대비 학습을 그대로 차용해, 작은 목표와 주변 배경 사이의 명암 차이를 강조한다. 이는 그래디언트 보조와 상호 보완적으로 작용해, 목표의 미세한 변화를 포착한다.
세 번째는 양방향 가이드 융합 모듈(TGFM)이다. 저수준 특징은 디테일이 풍부하지만 의미가 약하고, 고수준 특징은 의미는 풍부하지만 세부 정보가 부족하다. TGFM은 저수준 특징에 공간 어텐션(SAM)을 적용해 고수준 특징에 위치 정보를 제공하고, 고수준 특징에 채널 어텐션(CAM)을 적용해 저수준 특징에 의미적 가이드를 제공한다. 수식 (1)~(3)에서 보듯 두 어텐션은 각각 요소별 곱셈을 통해 상호 보완적으로 작동한다. 하이퍼파라미터 r을 8로 설정했을 때 파라미터 수가 감소하면서도 성능 저하가 없었으며, TGFM을 적용하지 않은 경우 대비 IoU·nIoU가 각각 0.99%·0.77% 향상되었다.
손실 함수는 배경과 목표의 불균형을 고려해 Soft‑IoU를 채택하였다. 이는 예측 확률 맵과 실제 마스크 간의 겹침을 직접 최적화함으로써, 작은 목표에 대한 민감도를 높인다.
실험에서는 두 공개 데이터셋 NUAA‑SIRST(실제 영상)와 NUDT‑SIRST(합성 영상)에서 광범위한 비교를 수행했다. NUAA‑SIRST에서 GGL‑Net은 기존 ALCNet, MLCL‑Net, DNANet, ALCL‑Net 대비 IoU를 7.53%~2.78% 상승시켰으며, nIoU도 7.97%~1.55% 개선했다. 또한 GPU(RTX 2080Ti) 상의 단일 이미지 추론 시간은 0.018 s 수준으로, 정확도 향상에 비해 연산 비용이 크게 증가하지 않았다. NUDT‑SIRST에서도 1:1 및 7:3 데이터 분할 모두에서 최고 성능을 기록했으며, 특히 7:3 분할에서 IoU 0.842, nIoU 0.814를 달성했다.
전체적으로 GGL‑Net은 그래디언트 정보를 효과적으로 활용하고, 이중‑브랜치와 양방향 어텐션 융합을 통해 다중 스케일 특징을 조화시킴으로써, 적외선 소목표 검출에서 기존 한계를 크게 뛰어넘는 성능을 입증한다. 향후 실시간 시스템이나 저전력 임베디드 환경에 적용하기 위해 경량화와 더 다양한 센서 데이터와의 융합 연구가 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기