양방향 스킵프레임 예측을 통한 영상 이상 탐지와 도메인 내 차이 강조

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

**
본 논문은 이중 스트림 오토인코더 기반의 양방향 스킵프레임 예측(BiSP) 모델을 제안한다. 학습 단계에서는 앞·뒤 방향으로 건너뛴 프레임을 입력해 각각 미래 프레임을 예측하고, 테스트 단계에서는 양쪽 끝의 연속 프레임을 이용해 동일한 중간 프레임을 공동 예측함으로써 정상·비정상 이벤트 간의 도메인 내 차이를 크게 확대한다. 또한 움직임 패턴을 강조하는 분산 채널 어텐션(VarCA)과 객체 규모를 포착하는 컨텍스트 공간 어텐션(ConSA)을 도입해 특성 추출과 전달 과정에서 차별성을 강화한다. 네 개의 벤치마크 데이터셋에서 기존 최첨단 방법들을 크게 능가하는 성능을 보였다.

상세 분석

**
BiSP는 기존 예측 기반 VAD가 갖는 “정상과 비정상 사이의 intra‑domain gap이 작다”는 한계를 극복하기 위해 두 가지 핵심 아이디어를 결합한다. 첫째, 스킵프레임 전략이다. 학습 단계에서 앞쪽(예: I₁, I₃, I₅)과 뒤쪽(예: I₆, I₄, I₂)으로 건너뛴 프레임을 각각 입력해 forward와 backward 예측기를 훈련한다. 이렇게 하면 모델이 장기적인 움직임 흐름을 학습하게 되고, 단순 연속 프레임을 이용한 예측보다 더 풍부한 시공간 정보를 얻게 된다. 테스트 단계에서는 양쪽 끝의 연속 프레임을 동시에 사용해 동일한 중간 프레임(I₃ 혹은 I₄)을 두 번 예측한다. 정상 영상에서는 두 예측이 거의 일치해 낮은 오류를 보이지만, 비정상 이벤트가 포함되면 양쪽 예측이 크게 달라져 오류가 급증한다. 이는 intra‑domain disparity를 인위적으로 확대하는 효과를 만든다.

둘째, 두 종류의 어텐션 모듈이다.

**Variance Channel Attention (VarCA)**는 채널 차원에서 각 특성 맵의 분산을 계산해 가중치를 부여한다. 분산이 큰 채널은 움직임 변화가 크다는 의미이므로 강조하고, 정적인 채널은 억제한다. 이를 통해 움직임 패턴에 민감한 특징을 부각시켜 정상·비정상 구분을 강화한다.
**Context Spatial Attention (ConSA)**는 공간 차원에서 주변 컨텍스트 정보를 활용한다. 직렬 구조로 설계돼, 먼저 전역 평균 풀링을 통해 전체 장면의 스케일 정보를 추출하고, 이를 공간 어텐션 맵에 곱해 객체 크기와 위치에 따라 가중치를 조정한다. 작은 객체나 멀리 있는 이상 행동도 놓치지 않도록 돕는다.

네트워크 자체는 dual‑stream AutoEncoder 구조를 채택한다. 두 스트림은 구조가 동일하지만 파라미터를 공유하지 않아 각각 forward와 backward 시퀀스를 독립적으로 학습한다. Encoder‑Decoder는 2D Conv 레이어와 3D Conv 레이어를 혼합해 시공간 정보를 효율적으로 압축·복원한다. 손실 함수는 L2 재구성 오차와 함께 예측 일관성 손실을 추가해, 두 방향 예측이 동일한 중간 프레임을 생성하도록 강제한다.

실험에서는 Avenue, ShanghaiTech, UCSD Ped2, Subway 네 데이터셋을 사용했으며, AUC(Area Under Curve) 기준으로 기존 최고 성능을 3~7%p 상회했다. 특히 복잡한 배경과 조명 변화가 큰 ShanghaiTech에서 큰 폭의 개선을 보였는데, 이는 VarCA와 ConSA가 다양한 스케일과 움직임을 동시에 포착했기 때문이다. 연산량 측면에서도 3D Conv를 최소화하고 2D Conv 중심 설계 덕분에 실시간(≈30FPS) 수준의 추론 속도를 유지한다.

한계점으로는 스킵프레임 간격이 고정돼 있어 매우 빠른 움직임을 가진 비정상 이벤트에 민감도가 떨어질 수 있다. 또한 메모리 사용량이 두 개의 AE를 동시에 유지해야 하므로 고해상도 영상에서는 GPU 메모리 부담이 있다. 향후 연구에서는 동적 스킵 간격 조절 및 경량화된 Transformer 기반 어텐션을 도입해 이러한 문제를 보완할 수 있을 것이다.

양방향 스킵프레임 예측을 통한 영상 이상 탐지와 도메인 내 차이 강조

초록

상세 분석

댓글 및 학술 토론

의견 남기기