키포인트 상호작용 기반 동적 특징 추출 모듈로 구현한 경량 폭력 인식

키포인트 상호작용 기반 동적 특징 추출 모듈로 구현한 경량 폭력 인식
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 인간 골격 키포인트의 속도와 관절 교차 정보를 이용해 폭력 행동을 구분하는 DIFEM(Dynamic Interaction Feature Extraction Module)을 제안한다. 추출된 5차원 특징을 랜덤 포레스트, 결정 트리, AdaBoost, KNN 등 전통적인 머신러닝 분류기에 입력하여 세 개의 공개 데이터셋(RWF‑2000, Hockey‑Fight, Crowd Violence)에서 기존 딥러닝 기반 방법들을 능가하는 정확도를 달성하였다.

상세 분석

DIFEM은 두 가지 핵심 메트릭, 즉 **시간적 동역학(velocity)**과 **공간적 상호작용(joint overlap)**을 기반으로 특징을 추출한다. 먼저 OpenPose를 이용해 프레임별 25개의 관절 좌표와 신뢰도를 얻고, 폭력 상황에서 주로 움직이는 11개의 관절(양쪽 손목·팔꿈치·엉덩이·무릎·발목·목)을 선택한다. 각 관절에 가중치를 부여한 뒤, 연속 프레임 사이의 유클리드 거리와 가중치를 곱해 속도 vᵢ,ⱼ,ₜ를 계산하고, 전체 비디오에 대해 평균, 최대값, 분산을 구한다. 이는 급격한 움직임을 정량화하는 데 효과적이며, 기존 연구에서 사용된 3D CNN이나 ConvLSTM 대비 계산량이 현저히 낮다.

공간적 상호작용은 두 사람 간 관절이 서로의 바운딩 박스 안에 들어가는 횟수를 카운트한다. 관절 좌표가 상대 인물의 최소·최대 x, y 범위에 포함될 경우 1, 아니면 0을 부여하고, 이를 프레임 전체에 걸쳐 평균 및 분산으로 요약한다. 이 방식은 물리적 충돌이나 근접 접촉이 빈번한 격투 상황을 간단히 포착한다.

추출된 5차원 벡터(시간 평균, 최대, 분산 + 공간 평균, 분산)는 scikit‑learn의 랜덤 포레스트(100 트리, Gini), 결정 트리, AdaBoost(100 추정기), K‑Nearest Neighbor(k=5) 등에 입력된다. 실험 결과, 랜덤 포레스트가 가장 높은 정확도(예: RWF‑2000 93.2%)를 보였으며, 전체 파라미터 수와 연산량이 딥러닝 기반 모델에 비해 10배 이상 적었다.

강점으로는 (1) 경량성—키포인트 추출 외에 복잡한 신경망이 필요 없으며, 실시간 적용이 가능하고, (2) 해석 가능성—속도와 관절 교차라는 직관적인 물리량으로 폭력 특성을 설명할 수 있다. 한계는 (1) 키포인트 검출 의존성—조명·가림 현상에 취약하고, (2) 다중 인물 복잡도—두 사람 이상이 동시에 등장하는 장면에서 겹침 카운트가 과도하게 증가할 수 있다. 향후 연구에서는 멀티인물 그래프 구조와 동적 가중치 학습을 결합해 이러한 문제를 보완할 여지가 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기