양적 프롬프트 기반 약한 지도 대조 학습으로 적외선 소형 목표 탐지
초록
본 논문은 적외선 영상에서 움직이는 초소형 목표를 탐지하기 위해, 목표 개수만을 제공하는 양적 프롬프트와 사전 학습된 Segment‑Anything‑Model(SAM)을 결합한 약한 지도 대조 학습 프레임워크(WeCoL)를 제안한다. 프레임 간 에너지 누적과 활성화 맵을 이용해 잠재 목표를 초기 후보로 추출하고, 대조 학습을 통해 양성·음성 샘플을 정제한다. 또한 단·장기 움직임 정보를 동시에 모델링하는 장‑단기 모션 인식 모듈을 도입해 특징 표현을 강화한다. 두 공개 데이터셋(DAUB, ITSDT‑15K)에서 실험한 결과, 완전 지도 방식보다 약 10% 이하의 성능 저하만 보이며, 기존 최첨단 방법을 능가하는 경우도 확인하였다.
상세 분석
WeCoL은 기존 적외선 소형 목표 탐지(MISTD) 연구가 전적으로 고비용의 목표‑별 라벨에 의존해 온 점을 근본적으로 탈피한다는 점에서 의의가 크다. 첫 번째 핵심 기여는 “목표 개수 프롬프트”라는 매우 약한 형태의 supervision을 도입한 것이다. 프레임 t의 실제 목표 수 K를 사전에 제공받아, 이 정보를 기반으로 SAM에 적절한 포인트 프롬프트를 생성한다. SAM은 대규모 이미지 세그멘테이션에 특화된 foundation model로, 제한된 프롬프트만으로도 높은 품질의 마스크를 출력한다. 여기서 저자들은 적외선 영상의 저대비·저해상도 특성을 고려해, SAM 입력 전 단계에서 두 가지 보조 신호를 만든다. 하나는 사전 학습된 InfMAE가 제공하는 활성화 맵 M으로, 이는 영상 전반에 걸친 잠재적 목표 영역을 강조한다. 다른 하나는 고역통과 필터와 라플라스 연산을 이용해 다중 프레임 에너지 누적 E를 계산한 것으로, 움직이는 목표가 시간 축에 걸쳐 축적되는 에너지 패턴을 포착한다. M과 E를 결합해 피크 포인트 P를 추출하고, 이 포인트를 SAM에 점 프롬프트로 전달함으로써 초기 pseudo‑label G를 얻는다.
두 번째 핵심은 대조 학습 기반의 pseudo‑label 정제 메커니즘이다. 기존 WSOD에서는 고정 임계값이나 NMS만으로 후보를 필터링했지만, 소형 목표는 신호‑대‑잡음비가 낮아 이러한 방식이 쉽게 오탐·누락을 초래한다. WeCoL은 MIL 기반 분류기에서 얻은 점수 S를 활용해 양성 샘플 Q와 음성 샘플 H를 구분한다. 이후 코사인 유사도를 이용해 양성 간 유사성 L_pos와 양성‑음성 간 유사성 L_neg를 각각 최소화·최대화하는 대조 손실을 정의한다. 이 과정에서 목표 개수 K가 “Top‑K” 선택 기준으로 작용해, 실제 존재하는 목표 수와 일치하도록 후보를 강제한다. 결과적으로 고품질의 최종 pseudo‑label G_n이 확보되고, 이는 이후 detector 학습에 직접 사용된다.
세 번째 기여는 장‑단기 모션 인식(LTM) 모듈이다. 소형 목표는 움직임이 매우 미세하고, 단일 프레임에서는 구분이 어려우므로 시간적 정보를 효과적으로 활용해야 한다. LTM은 단기(local) 모션을 포착하기 위해 3‑frame 차분과 DCT 기반 주파수 변환을 적용한 Conv‑RC 블록을 사용하고, 장기(global) 모션을 모델링하기 위해 전체 시퀀스의 특징을 시간‑축 어텐션으로 집계한다. 두 흐름을 피처 레벨에서 융합함으로써, 정적인 배경 잡음은 억제하고 목표의 연속적인 궤적은 강화한다.
실험 결과는 설득력 있다. DAUB와 ITSDT‑15K 두 데이터셋에서 WeCoL은 완전 지도 기반 최신 모델(예: ST‑Trans, Tridos 등)의 90 % 이상 성능을 달성했으며, 특히 저대비·고노이즈 환경에서 false‑positive 비율이 현저히 감소했다. Ablation study를 통해 각 모듈(PTM, PCL, LTM)의 기여도를 정량화했으며, 양적 프롬프트 없이 진행한 경우 성능이 급격히 저하되는 것을 확인했다. 이는 목표 개수라는 최소한의 정보가 pseudo‑label 품질을 크게 좌우한다는 것을 실증한다.
전반적으로 WeCoL은 (1) SAM을 활용한 효율적인 후보 생성, (2) 대조 학습을 통한 정교한 라벨 정제, (3) 장‑단기 모션 융합이라는 세 축을 결합해, 적외선 소형 목표 탐지 분야에서 약한 지도 학습의 실용성을 크게 확장한다는 점에서 학술적·산업적 파급력이 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기