3D 인간‑대‑인간 상호작용 이상 탐지와 IADNet 설계
초록
본 논문은 두 사람의 3차원 동작을 대상으로 하는 새로운 이상 탐지 과제인 Human‑Human Interaction Anomaly Detection(H2IAD)를 정의하고, 상호작용의 시간적 동기화와 공간적 거리 관계를 동시에 학습하는 IADNet을 제안한다. 핵심 모듈인 Temporal Attention Sharing Module(TASM)은 두 사람의 움직임 임베딩을 파라미터를 공유하는 Transformer 구조로 동시에 인코딩하고, 공유 가능한 위치 임베딩을 통해 시간적 상호 의존성을 강화한다. Distance‑Based Relational Encoding Module(DREM)은 프레임별 관절 간 거리 맵을 계산해 사회적·공간적 신호를 추출하고, 이를 TASM에 통합한다. 최종적으로 정규화 흐름(Normalizing Flow)을 이용해 정상 동작의 확률 밀도를 학습, 낮은 likelihood를 이상 점수로 활용한다. 실험 결과, 기존 단일 인물 기반 AD 모델들을 크게 능가함을 보인다.
상세 분석
IADNet은 H2IAD라는 새로운 과제를 위해 설계된 최초의 프레임워크로, 기존 인간‑중심 이상 탐지 연구가 단일 인물의 동작에만 초점을 맞추었던 한계를 극복한다. 핵심 설계인 TASM은 두 사람 각각에 대해 동일한 Transformer 인코더를 파라미터 공유 방식으로 배치함으로써, ‘동기화된 시간적 주의’를 구현한다. 이는 전통적인 독립 인코딩이 놓치기 쉬운 상호 작용의 동시성(synchrony)과 비대칭적 의존성을 포착한다. 또한, 고정된 사인파 위치 인코딩 대신 학습 가능한 위치 임베딩 행렬 H를 양쪽 스트림에 공유함으로써, 시간 축에서의 상호 관계를 보다 유연하게 모델링한다.
DREM은 공간적 사회적 단서를 제공한다. 각 프레임에서 두 사람의 모든 관절 쌍 사이의 유클리드 거리를 계산해 동적 거리 맵(Dynamic Distance Map)을 만든 뒤, 이를 임베딩에 결합한다. 거리 값이 작을수록(즉, 가까울수록) 상호 작용이 강하다는 신호를 네트워크가 학습하도록 유도한다. 이 거리 기반 관계 임베딩은 TASM 내부의 Motion Cross‑Attention 단계에 주입되어, 시간적 특징과 공간적 관계가 상호 보완적으로 통합된다.
정규화 흐름(NF) 기반의 Anomaly Scoring Module은 정상 샘플들의 잠재 공간 분포를 고밀도로 학습한다. 테스트 시, 비정상 동작은 NF가 낮은 확률 밀도를 반환하므로, likelihood의 역수를 이상 점수로 바로 사용할 수 있다. 이 설계는 복잡한 비선형 분포를 효과적으로 모델링하면서도, 별도의 재구성 손실이나 예측 오류 기반 스코어링보다 해석이 용이하고 안정적이다.
실험에서는 대규모 3D 인간 상호작용 데이터셋(Human3.6M 기반 변형 및 CMU Mocap 등)을 활용해, 기존 VAE, Diffusion, GCN‑기반 AD 모델들을 비교하였다. IADNet은 평균 AUC·AP에서 8~12%p 상승을 기록했으며, 특히 거리 변화가 큰 ‘슬랩’, ‘밀치기’와 같은 비대칭 상호작용에서 뛰어난 구분력을 보였다. Ablation 연구를 통해 TASM의 파라미터 공유와 공유 위치 임베딩, DREM의 거리 인코딩 각각이 성능 향상에 기여함을 확인하였다.
전반적으로 IADNet은 시간‑공간 상호작용을 동시에 고려한 구조적 혁신을 통해, 인간‑대‑인간 상호작용 이상 탐지라는 새로운 영역에 실용적인 솔루션을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기