다중 에이전트 주의 기반 활동 인식 모델
본 논문은 센서 기반 인간 활동 인식(HAR)에서 멀티모달 데이터의 시공간적 중요도를 자동으로 학습하는 다중 에이전트 강화학습 프레임워크를 제안한다. 공간‑시간 주의 메커니즘으로 유의한 모달리티와 활성 기간을 선택하고, 각 에이전트가 신체 부위별 움직임을 담당하도록 하여 협업적으로 최적의 인식 정책을 학습한다. 네 개의 실제 데이터셋에서 기존 최첨단 방법들을 능가하는 성능을 보였다.
저자: Kaixuan Chen, Lina Yao, Dalin Zhang
**1. 서론**
센서 기반 인간 활동 인식(HAR)은 헬스케어, 엔터테인먼트, 피트니스 등 다양한 분야에서 핵심 기술로 자리 잡았다. 기존 연구는 손수 만든 특징과 전통적인 머신러닝, 혹은 딥러닝 기반 CNN·LSTM 모델을 활용했지만, 멀티모달 데이터의 **시공간적 가변 중요도**와 **신체 부위 간 상호작용**을 충분히 반영하지 못한다는 한계가 있었다. 본 논문은 이러한 두 가지 본질적 특성을 동시에 고려한 새로운 프레임워크를 제안한다.
**2. 문제 정의**
입력은 K × P 형태의 2‑D 텐서 x 로, K는 시간 윈도우 길이, P는 각 시간점에서 수집된 N (=3)개의 신체 부위와 각 부위당 P′ (가속도, 각속도, 자기장 등) 모달리티를 포함한다. 목표는 주어진 x 로부터 활동 라벨 y ∈ {1,…,C} 를 예측하는 것이다.
**3. 모델 구조**
전체 구조는 **다중 에이전트 협업**과 **공간‑시간 주의** 두 부분으로 나뉜다.
- **에이전트 관측 및 인코딩**: 각 단계 s에서 에이전트 aᵢ (i=1,2,3)는 현재 선택된 시간 tₛ와 모달리티 위치 lₛᵢ 를 기준으로 K₈ × P₈ 크기의 패치를 추출한다. 이 패치는 선형 변환 L(·)와 ReLU를 거쳐 oₛᵢ 로 변환된다(식 1).
- **공유 관측 및 공간 관계 추출**: 세 oₛᵢ 를 concat하여 oₛg 를 만든 뒤, 1‑D 컨볼루션(필터 1 × M, 40개 feature map)을 적용하고 reshape하여 rₛg 를 얻는다(식 3). 이는 각 부위의 정보를 통합한 공간 관계 표현이다.
- **시간적 통합(LSTM)**: rₛg 와 이전 은닉 상태 hₛ₋₁ 를 입력으로 LSTM 셀을 통과시켜 현재 은닉 상태 hₛ 를 얻는다(식 4).
**4. 주의 기반 선택 메커니즘**
- **공간 선택**: 각 에이전트는 현재 hₛ 와 자체 관측 oₛᵢ 를 입력으로 하는 함수 f_l(·) 를 통해 Gaussian 분포의 평균을 구하고, 이를 기반으로 다음 모달리티 위치 lₛ₊₁ᵢ 를 샘플링한다(식 5).
- **시간 선택**: 모든 에이전트가 공유하는 tₛ₊₁ 은 hₛ 로부터 f_t(·) 를 통해 Gaussian 평균을 구하고 샘플링한다(식 6).
- **예측 및 보상**: 각 단계에서 softmax( L(hₛ) ) 로 임시 예측 ˆyₛ 를 만든 뒤, 에피소드 종료 시 최종 예측 ˆy_S 와 실제 라벨 y 를 비교해 보상 R(=1 혹은 0)을 부여한다(식 8).
**5. 학습 및 최적화**
- **분류 손실**: 교차 엔트로피 L_c 를 최소화한다(식 9).
- **정책 경사**: 선택 정책 파라미터 Θ는 미분 불가능하므로 REINFORCE 기반의 정책 경사 상승을 적용한다. 트래젝터리 τ = {e₁, lt₁, y₁; …; e_S, lt_S, y_S} 의 로그 확률에 보상 R을 가중합해 ∇_Θ R̂ 를 추정한다(식 11‑13). Monte‑Carlo 샘플 M 개를 사용해 편차를 감소시킨다.
- **전체 업데이트**: L_c 의 경사와 ∇_Θ R̂ 를 동시에 적용해 파라미터 Θ 를 업데이트한다(알고리즘 1).
**6. 실험 설정**
- **데이터셋**: MHEALTH(10명), PAMAP2(9명), UCI HAR(30명), MARS(8명) 를 LOSO 방식으로 평가.
- **하이퍼파라미터**: 시간 윈도우 20, 50 % 오버랩, 에피소드 길이 40, LSTM 차원 220, Gaussian 분산 0.22 등.
- **비교 대상**: MC‑CNN, C‑Fusion, MARCEL, E‑LSTM, PRCA, WAS‑LSTM 등 최신 HAR 모델.
**7. 결과 및 분석**
제안 모델은 모든 데이터셋에서 평균 2 %~5 % 정도 정확도 향상을 달성했다. 특히, 모달리티 선택 정확도가 높은 활동(예: 계단 오르기, 누워 있기)에서 큰 폭의 개선을 보였으며, 선택된 시간·모달리티 위치를 시각화함으로써 모델의 **해석 가능성**을 확보했다. Ablation 실험에서 (i) 공간‑시간 주의 없이 단순 LSTM, (ii) 다중 에이전트 없이 단일 에이전트 구조를 각각 적용했을 때 성능이 현저히 떨어짐을 확인했다.
**8. 논의 및 한계**
- **연산 복잡도**: 에이전트 수와 선택 단계가 늘어날수록 샘플링 및 정책 업데이트 비용이 증가한다. 실시간 적용을 위해 경량화가 필요하다.
- **정책 탐색**: Gaussian 분산을 고정했기 때문에 초기 탐색 범위가 제한될 수 있다. 동적 분산 조정이나 베이시안 최적화 기법을 도입하면 더 효율적인 탐색이 가능할 것이다.
- **확장성**: 현재는 3개의 신체 부위와 고정된 모달리티에 맞춰 설계되었으며, 더 많은 센서와 복합적인 동작(예: 복합 스포츠 동작)에는 추가적인 에이전트 설계와 그래프 기반 상호작용 모델링이 요구된다.
**9. 결론**
본 연구는 인간 활동 인식에서 **시공간적 가변 중요도**와 **신체 부위 간 협업 움직임**을 동시에 고려한 다중 에이전트 강화학습 프레임워크를 제시한다. 공간‑시간 주의 메커니즘과 에이전트 협업을 통해 선택된 모달리티와 시간 구간이 의미 있게 해석 가능하며, 네 개의 실제 데이터셋에서 기존 최첨단 방법들을 일관되게 능가한다. 향후 연구는 정책 탐색 효율성 향상, 에이전트 간 그래프 신경망 통합, 그리고 실시간 시스템 적용을 목표로 할 것이다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기