UAV 행동 인식을 위한 객체 중심 미래 예측 사전학습 FALCON

UAV 행동 인식을 위한 객체 중심 미래 예측 사전학습 FALCON
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

FALCON은 UAV 영상의 공간적 불균형과 움직임 잡음 문제를 해결하기 위해, 사전학습 단계에서만 객체 탐지 정보를 활용해 객체‑중심 마스크와 미래 재구성 목표를 도입한 자기지도 학습 프레임워크이다. 균형 잡힌 토큰 가시성, 객체‑중심 재구성 가중치, 그리고 단·장기 두 단계의 미래 예측 손실을 결합함으로써, 기존 MAE 기반 방법보다 작은 인간·객체 영역에 대한 표현 학습을 강화한다. NEC‑Drone과 UAV‑Human 벤치마크에서 ViT‑B 기반 모델의 Top‑1 정확도를 각각 2.9%·5.8% 향상시키고, 테스트 시 중복 증강 없이 2∼5배 빠른 추론 속도를 달성한다.

상세 분석

FALCON은 UAV 영상 특유의 “배경 편중” 문제를 근본적으로 재설계한다. 일반 MAE는 무작위 마스킹과 전체 픽셀 복원을 목표로 하여, 넓은 배경이 차지하는 비중이 큰 경우 작은 인간·객체 영역이 마스크된 토큰에 거의 포함되지 않거나, 복원 손실이 배경에 의해 지배된다. 이로 인해 학습된 특징은 행동 구분에 필요한 미세 움직임을 포착하지 못한다. FALCON은 이러한 한계를 극복하기 위해 두 가지 핵심 메커니즘을 도입한다.

첫째, 객체‑인식 마스크이다. 사전학습 단계에서만 오프‑더‑쉘프 객체 탐지기(예: YOLO, Faster‑RCNN)를 사용해 각 프레임에 대한 객체성 히트맵 Hₒ를 생성한다. 히트맵은 가우시안 패치 스코어 맵 Sₒ로 변환되고, 이를 정량화하여 동일 길이의 구간(quantile)으로 나눈 뒤 각 구간에서 하나의 패치를 무작위로 선택한다. 결과적으로 마스크 Mₒ는 “높은 객체성 점수”와 “낮은 객체성 점수”를 모두 포함하는 균형 잡힌 토큰 집합을 만든다. 이렇게 하면 작은 인간·객체 영역이 시스템적으로 가시성에서 제외되지 않으며, 동시에 주변 배경 정보도 유지해 컨텍스트 학습을 가능하게 한다.

둘째, 객체‑중심 재구성 가중치이다. 마스크된 토큰 Kᵥₙₒ에 대해 복원 손실을 계산할 때, 각 토큰에 객체성 점수 Sₒᵢ를 가중치 ŵₒᵢ = Sₒᵢ + μ (μ는 전체 평균 점수) 로 곱한다. 이는 배경 토큰에 최소한의 학습 신호를 부여하면서도, 객체성 점수가 높은 토큰에 더 큰 손실을 부여해 모델이 행동‑관련 영역에 집중하도록 만든다.

시간적 차원에서는 이중‑시간대 미래 재구성을 적용한다. 관찰 클립 Vₒ와 미래 클립 V_f를 구분하고, 미래 클립을 짧은 시간대 V_s (t+1 ~ t+n)와 긴 시간대 V_l (t+n+1 ~ t+2n)로 나눈다. 미래 프레임에 대해서도 탐지 기반 히트맵 H_f를 만든 뒤, 높은 응답 영역을 포함하는 사각형 R_f를 확장해 객체‑중심 감독 영역 Ω를 정의한다. 이 영역을 패치 그리드에 투사해 가중치 맵 W_f를 얻고, 각각의 미래 토큰에 대해 L_short 와 L_long 손실을 가중치 ŵ_fᵢ 와 함께 계산한다. 또한, 두 시간대 간 일관성을 강제하는 L_cons 정규화 항을 추가해 모델이 장기적인 움직임 흐름을 일관되게 예측하도록 만든다.

전체 손실 L_FALCON = L_obs + L_short + L_long + L_cons 은 비대칭 인코더‑디코더 구조(ViT‑B)에서 동시에 최적화된다. 인코더는 마스크된 토큰만을 입력받아 효율적인 특징 추출을 수행하고, 디코더는 완전 마스크된 미래 토큰까지 복원한다. 사전학습이 끝난 후에는 탐지기 없이 원본 RGB 프레임만을 입력으로 받아 바로 행동 분류 헤드에 연결한다.

실험 결과는 설득력 있다. NEC‑Drone(드론 시점)과 UAV‑Human(인간 행동) 두 데이터셋에서, 동일 ViT‑B 백본을 사용했을 때 각각 Top‑1 정확도가 2.9%와 5.8% 상승했으며, 기존 감독 학습 기반 모델이 필요로 하는 다중 스케일·플립 증강 없이 2∼5배 빠른 추론 속도를 달성했다. Ablation study에서는 (1) 객체‑인식 마스크 없이 전통 MAE를 적용하면 성능이 급격히 떨어지고, (2) 객체‑중심 가중치를 제거하면 배경 편향이 재발하며, (3) 단일‑시간대 미래 재구성만 사용할 경우 장기 움직임 포착이 약해지는 것을 확인했다.

FALCON의 강점은 (i) UAV 영상의 특수성을 정확히 모델링한 사전학습 목표 설계, (ii) 탐지기를 사전학습에만 활용해 추론 단계에서 계산 비용을 최소화, (iii) 짧은·긴 시간대 두 단계의 미래 예측을 통해 미세 움직임과 장기 행동 변화를 동시에 학습한다는 점이다. 한계점으로는 (a) 사전학습 시 탐지 품질에 의존하므로 탐지기 성능이 낮은 경우 객체‑중심 마스크가 부정확해질 수 있고, (b) 현재는 고정된 마스크 비율과 구간 수를 사용하므로 다양한 UAV 시나리오에 대한 적응성이 제한될 수 있다. 향후 연구에서는 탐지기‑프리 객체성 추정, 동적 마스크 비율 조정, 그리고 멀티모달(예: 광학 흐름) 신호와의 결합을 통해 더욱 일반화된 UAV 행동 인식 프레임워크를 구축할 여지가 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기