베이비맘바‑HAR: 경량 선택적 상태공간 모델로 구현하는 초소형 인간 활동 인식

베이비맘바‑HAR: 경량 선택적 상태공간 모델로 구현하는 초소형 인간 활동 인식
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 자원 제한 웨어러블·모바일 디바이스에서 높은 정확도를 유지하면서도 메모리·연산 비용을 최소화할 수 있는 두 가지 경량 Mamba 기반 아키텍처, CI‑BabyMamba‑HAR와 Crossover‑BiDir‑BabyMamba‑HAR를 제안한다. 채널 독립형 스템과 조기 융합 스템을 각각 적용해 센서 채널 수에 따른 연산량을 효율적으로 조절하고, 가중치 공유 양방향 스캔과 경량 시간‑주의 풀링을 결합한다. 8개 공개 HAR 데이터셋에서 평균 매크로 F1 = 86.52 %를 달성했으며, 파라미터는 약 27 K, MAC는 2.21 M으로 TinyHAR 대비 11배 적은 연산량을 기록한다.

상세 분석

이 연구는 TinyML 환경에서 선택적 상태공간 모델(SSM)의 설계 공간을 체계적으로 탐색한다는 점에서 의미가 크다. 먼저, 기존 Transformer‑계열 모델이 O(N²) 복잡도를 갖는 반면, Mamba‑계열 SSM은 입력에 따라 시간 간격 Δt와 상태 전이 행렬 B, C를 동적으로 조절하는 게이트 메커니즘을 도입해 O(N) 선형 시간 복잡도를 유지한다. 이는 인간 활동 인식(HAR)에서 짧은 동작 전이만이 중요한 정보를 담고, 긴 정지 구간은 잡음에 불과하다는 특성과 잘 맞는다.

두 가지 아키텍처는 센서 채널 구조에 따라 서로 다른 스템을 사용한다. CI‑BabyMamba‑HAR는 채널당 동일한 1‑D Conv‑BN‑SiLU 스템을 공유함으로써 채널 간 노이즈 전파를 차단하고, 각 채널을 독립적으로 처리한 뒤 후기에 평균 풀링으로 결합한다. 이는 채널 간 상관관계가 낮고 잡음이 많이 섞인 복합 센서 네트워크에 유리하다. 반면 Crossover‑BiDir‑BabyMamba‑HAR는 모든 채널을 하나의 Conv 레이어로 즉시 융합해 d_model 차원으로 투사하고, 이후 양방향 SSM 블록을 적용한다. 이 설계는 연산량이 채널 수에 독립적이어서 79채널을 갖는 Opportunity 데이터셋에서 11배 적은 MAC를 달성한다.

양방향 스캔은 동일 파라미터를 앞·뒤 두 방향에 공유함으로써 유효 수용 영역을 두 배로 확대한다. 이는 특히 복잡한 시간 패턴을 가진 MotionSense·PAMAP2와 같은 데이터셋에서 F1 점수가 6~8% 이상 상승하는 원인으로 확인되었다. 또한, 경량 컨텍스트‑게이트 시간‑주의 풀링은 각 타임스텝에 가중치를 학습시켜 짧은 동작 구간에 집중하도록 한다. 평균 풀링 대비 최대 8.94%의 F1 향상을 보여, 제한된 파라미터 환경에서도 중요한 시점 선택 능력을 확보한다.

실험 설정은 8개 데이터셋에 대해 동일한 전처리·윈도우·교차 검증 파이프라인을 적용하고, 5개 시드 평균·표준편차를 보고한다. 특히 단일 피험자 데이터인 Skoda에서는 시간 기반 트레인‑테스트 분할을 사용해 데이터 누수를 방지했으며, 이로 인해 기존 보고된 97% 수준의 과대평가가 84~85% 수준으로 정상화되었다.

전체적으로, 이 논문은 (1) 채널 수에 따라 연산량을 조절할 수 있는 스템 설계, (2) 파라미터 효율적인 양방향 스캔, (3) 경량 시간‑주의 풀링이라는 세 가지 핵심 요소가 TinyML 수준의 HAR 모델에서 정확도와 효율성을 동시에 달성할 수 있음을 실증한다. 향후 연구는 하드웨어 친화적인 정밀도 감소(예: 8‑bit 양자화)와 자동화된 스템 선택 메커니즘을 결합해 더욱 다양한 임베디드 시나리오에 적용하는 방향으로 확장될 수 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기