비디오 감시를 위한 가변 인원 그룹 이벤트 탐지

초록

본 논문은 비디오 감시 환경에서 인원 수가 변동하는 그룹의 행동을 자동으로 인식하기 위해 그룹 대표자를 도입하고, 사람들 간의 관계를 비동기형 히든 마코프 모델(AHMM)로 모델링한다. 대칭·비대칭 활동을 모두 처리할 수 있는 탐지 알고리즘을 제시하며, 계층적 상호작용까지 포착한다는 점에서 기존 방법보다 우수함을 실험을 통해 입증한다.

상세 분석

이 연구는 영상 감시 시스템에서 다수 인물이 동시에 움직이는 상황을 효과적으로 분석하기 위해 두 가지 핵심 아이디어를 제시한다. 첫 번째는 ‘그룹 대표자(Group Representative, GR)’ 개념이다. 그룹 내 인원 수가 시간에 따라 가변적이지만, 모든 멤버의 개별 특징을 일일이 추적하는 대신, 각 프레임에서 대표적인 하나의 특징 벡터를 추출함으로써 차원 축소와 연산 효율성을 동시에 달성한다. 대표자는 일반적으로 그룹 중심의 위치, 평균 속도, 그리고 군집 내 핵심 인물(예: 리더)의 행동 패턴을 결합해 구성되며, 이는 그룹 전체의 동적 변화를 충분히 반영한다는 가정에 기반한다.

두 번째는 비동기형 히든 마코프 모델(AHMM)의 적용이다. 전통적인 HMM은 모든 관측 시퀀스가 동일한 시간 간격으로 동기화된다고 전제하지만, 실제 감시 영상에서는 사람마다 움직임 시작 시점과 속도가 다르다. AHMM은 각 관측 시퀀스에 개별적인 타임스탬프를 부여하고, 상태 전이 확률을 시간 차이에 따라 가중화함으로써 비동기성을 자연스럽게 모델링한다. 이를 통해 그룹 내 서브그룹 간의 상호작용, 예를 들어 한 사람이 먼저 움직이고 나머지가 이를 따라가는 ‘리더‑팔로워’ 관계를 정밀하게 포착한다.

알고리즘은 대칭 활동(예: 군집 이동, 원형 회전)과 비대칭 활동(예: 한 사람의 접근 후 다른 사람의 회피) 모두를 동일한 프레임워크 안에서 처리한다. 대칭 활동은 그룹 전체가 동일한 상태 전이를 공유하는 반면, 비대칭 활동은 각 멤버가 서로 다른 전이 경로를 따르도록 AHMM의 상태 전이 행렬을 부분적으로 분리한다. 이렇게 하면 동일한 모델 구조 내에서 복합적인 상호작용을 동시에 학습할 수 있다.

실험에서는 공개된 감시 영상 데이터셋과 자체 구축한 시나리오를 사용해 정확도, 재현율, F1-score 등 다양한 지표를 측정하였다. 특히 인원 수가 급격히 변동하거나 부분적인 가시성 손실이 발생하는 상황에서도 제안된 GR‑AHMM 조합은 기존의 HMM 기반 혹은 딥러닝 기반 방법보다 평균 8~12% 높은 인식 성능을 보였다. 또한, 계층적 상호작용(예: 소규모 그룹이 큰 그룹에 합류하거나 분리되는 과정)을 시각화한 결과, 모델이 시간에 따라 변화하는 관계 구조를 적절히 추적함을 확인할 수 있었다.

이 논문의 주요 기여는 (1) 가변 인원 그룹을 효율적으로 요약하는 GR 개념, (2) 비동기성을 고려한 AHMM 설계, (3) 대칭·비대칭 활동을 통합적으로 다루는 탐지 알고리즘, 그리고 (4) 계층적 상호작용까지 포괄하는 실험적 검증이다. 향후 연구에서는 GR을 다중 스케일 특징으로 확장하고, AHMM에 딥러닝 기반 관측 모델을 결합해 더욱 복잡한 실시간 감시 환경에 적용하는 방향이 기대된다.