고프레임 영상 소수샷 행동 인식을 위한 스파셜템포럴 관계와 모션 정보 강화
초록
본 논문은 고프레임 비디오에서 발생하는 스파셜·템포럴 관계 약화와 모션 정보 밀도 감소 문제를 해결하기 위해, 세 가지 모듈(3DEM, CWEM, HMEM)로 구성된 플러그인‑형 아키텍처 SOAP‑Net을 제안한다. 3DEM은 3D 컨볼루션으로 스파셜·템포럴 관계를 강화하고, CWEM은 채널 간 시간 연결을 SE‑기반 1D 컨볼루션으로 보정한다. HMEM은 인접 프레임이 아닌 다양한 프레임 수를 갖는 튜플을 활용해 풍부한 모션 정보를 포착한다. 실험 결과, SthSthV2, Kinetics, UCF101, HMDB51 등 주요 FSAR 벤치마크에서 기존 최첨단 방법들을 크게 능가한다.
상세 분석
SOAP‑Net은 기존 FSAR 연구가 공간 특징 추출 후 시간 정렬에만 의존해 공간·시간 정보를 분리하고, 인접 프레임 사이의 제한된 모션만을 활용한다는 한계를 정확히 짚어낸다. 이를 극복하기 위해 제안된 3‑Dimension Enhancement Module(3DEM)은 입력 비디오 텐서를 채널 차원을 평균화한 뒤 3D 컨볼루션을 적용함으로써, 공간과 시간 축을 동시에 학습한다. 이 과정에서 Sigmoid‑gate와 Residual 연결을 사용해 원본 특징에 스파셜·템포럴 관계 정보를 직접 주입한다는 점이 핵심이다.
Channel‑Wise Enhancement Module(CWEM)은 SE‑Block의 아이디어를 확장한다. 먼저 공간 평균 풀링으로 각 프레임의 채널 별 요약을 만든 뒤, 2D 컨볼루션으로 차원을 확장하고, 1D 컨볼루션을 통해 시간 축을 따라 채널 간 상관관계를 동적으로 보정한다. 이렇게 얻어진 채널‑우선 가중치는 다시 원본 텐서와 결합돼, 채널 별로 시간적 연속성을 강화한다.
Hybrid Motion Enhancement Module(HMEM)은 “모션 밀도”라는 새로운 관점을 도입한다. 기존 방법이 인접 프레임 차이만을 이용해 모션을 추출하는 반면, HMEM은 프레임 튜플(예: 2,4,6프레임)들을 슬라이딩 윈도우 방식으로 구성하고, 각 튜플에 대해 차별적인 특징을 추출한다. 다중 스케일 튜플을 병합함으로써 미세한 움직임부터 큰 변위까지 포괄적인 모션 정보를 제공한다. 이때 튜플 수와 크기는 하이퍼파라미터 O로 정의되며, 실험을 통해 최적 조합이 도출된다.
세 모듈은 병렬로 동작해 각각 독립적인 사전 지식을 입력 특징에 주입한다. 이후 일반적인 2D/3D 백본(C3D, R(2+1)D 등)과 결합해 프로토타입을 구성하고, 메트릭‑기반 거리 계산으로 쿼리를 분류한다. 중요한 점은 SOAP‑Net이 플러그인 형태이므로 기존 FSAR 파이프라인에 손쉽게 삽입 가능하다는 것이다.
실험에서는 5‑way 1‑shot, 5‑way 5‑shot 등 다양한 설정에서 기존 최첨단 모델(OTAM, TRX, HyRSM 등)을 크게 앞선 성능을 기록했다. 특히 고프레임 비디오에서 프레임 수가 많을수록 모션 정보가 희석되는 현상을 완화시켜, 데이터가 제한된 상황에서도 안정적인 일반화 능력을 보였다. Ablation study는 3DEM, CWEM, HMEM 각각이 독립적으로 성능 향상에 기여함을 입증했으며, 특히 HMEM의 다중 튜플 전략이 가장 큰 개선 효과를 가져왔다.
전반적으로 SOAP‑Net은 스파셜·템포럴 관계와 모션 정보를 동시에 강화함으로써, 고프레임 비디오 기반 소수샷 행동 인식의 핵심 과제를 효과적으로 해결한다는 점에서 의미가 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기