멀티스펙트럼 보행자 탐지를 위한 게이트형 융합 SSD
초록
본 논문은 색상 영상과 열영상 두 개의 센서를 동시에 활용하여 보행자를 탐지하는 새로운 일단계 검출기인 GFD‑SSD를 제안한다. 두 개의 SSD 네트워크를 각각 색상·열 입력에 적용하고, 중간 피처맵을 결합하는 두 가지 게이트형 융합 유닛(GFU_v1, GFU_v2)을 설계하였다. GFU를 전체 피라미드에 적용한 완전 게이트형 구조와, 일부 레이어에만 적용하는 네 가지 혼합형 구조를 비교 실험했으며, KAIST 멀티스펙트럼 데이터셋에서 기존 스택형 융합보다 낮은 Miss Rate와 Faster‑RCNN 기반 두 단계 융합 대비 2배 빠른 추론 속도를 달성하였다.
상세 분석
이 연구는 자율주행 차량에 필수적인 보행자 검출을 위해 색상 이미지와 열이미지를 동시에 활용하는 멀티스펙트럼 접근법을 제시한다. 기존 연구들은 주로 Faster‑RCNN과 같은 두 단계 검출기에 의존했으며, 정확도는 높지만 실시간 요구사항을 만족시키기엔 연산량이 과다했다. 저자는 이러한 한계를 극복하고자 SSD 기반의 일단계 검출기에 초점을 맞추었다. 핵심 기법은 두 개의 SSD(색상·열) 사이에 삽입되는 게이트형 융합 유닛(Gated Fusion Unit, GFU)이다. GFU_v1은 색·열 피처를 concat 후 3×3 컨볼루션을 각각 적용하고 ReLU 활성화 후 원본 피처와 element‑wise sum을 수행해 1×1 컨볼루션으로 차원을 복원한다. 반면 GFU_v2는 각각의 피처에 독립적인 3×3 컨볼루션을 적용해 동일한 과정을 수행한다. sigmoid 대신 ReLU를 사용함으로써 가중치가 0~∞ 범위에서 자유롭게 학습되도록 설계했으며, 곱셈 연산 대신 합산을 사용해 학습 안정성을 높였다.
피라미드 전체에 GFU를 적용한 “완전 게이트형” 구조와, 일부 레이어에만 적용하는 네 가지 “혼합형”(Mixed_Early, Mixed_Late, Mixed_Even, Mixed_Odd) 변형을 제안한다. 혼합형은 연산량과 성능 사이의 트레이드오프를 조절할 수 있게 해준다. 예를 들어 Mixed_Even은 얕은(conv4_3), 중간(conv8_2), 깊은(conv10_2) 레이어에만 GFU를 삽입해 전체 앵커 수를 11,052개로 제한하면서도 높은 정확도를 유지한다.
손실 함수는 분류 손실, 위치 손실, L2 정규화 손실을 가중합한 형태이며, OHEM을 도입해 hard negative 샘플에 집중한다. 특히 위치 손실 가중치를 크게 잡아(α:β:γ = 5:10:1) 자율주행 시 정확한 박스 회귀를 강조한다.
실험은 KAIST 멀티스펙트럼 보행자 데이터셋(95.3k 이미지 쌍)에서 수행했으며, Miss Rate(logMR) 기준으로 기존 스택형 융합보다 1.2%p 정도 개선하고, Faster‑RCNN 기반 두 단계 융합 대비 추론 속도를 2배 가속했다. 결과는 특히 야간·조명 약한 환경에서 열영상이 제공하는 보강 효과와, GFU가 노이즈가 섞인 피처를 효과적으로 억제함을 보여준다.
이 논문의 주요 기여는 (1) 두 피처맵을 동적으로 결합하는 GFU 설계와 두 가지 변형 제시, (2) 전체 피라미드 혹은 선택적 레이어에 적용 가능한 혼합형 융합 구조 제안, (3) 일단계 SSD 기반 멀티스펙트럼 검출기가 두 단계 검출기와 동등하거나 우수한 정확도와 실시간 성능을 동시에 달성할 수 있음을 실증한 점이다. 다만, VGG16 백본에 의존하고 있어 최신 경량 백본(예: MobileNet, EfficientNet)과의 결합 효과는 추가 연구가 필요하다. 또한, 열영상 센서의 캘리브레이션 오류나 날씨에 따른 열노이즈에 대한 견고성 검증이 부족한 점도 향후 과제로 남는다.
댓글 및 학술 토론
Loading comments...
의견 남기기