엣지 마이크로컨트롤러용 실시간 인간 활동 인식: 동적 계층 추론과 다중 스펙트럼 센서 융합

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 ARM Cortex‑M4 마이크로컨트롤러에 최적화된 계층형 신경망 HPPI‑Net을 제안한다. FFT 기반 1단계 사전 분류와, 동적 활동에 대해 FFT·WT·GT 스펙트럼을 병렬 LSTM‑MobileNet 구조(PLMN)로 융합하고, 정적 활동은 경량 CNN‑LSTM 모듈만 사용한다. ECA와 DSC를 적용해 채널 수준 해석성을 확보하면서 연산량을 크게 줄였으며, 최종적으로 96.70% 정확도와 22.3 KiB RAM, 439.5 KiB ROM을 달성했다.

상세 분석

HPPI‑Net은 “계층형 동적 추론”이라는 설계 철학을 중심으로 구성된다. 첫 번째 레이어는 6축 IMU 데이터를 16‑샘플 윈도우로 나누어 FFT 스펙트로그램을 생성하고, 초간단 CNN‑LSTM 모듈을 통해 활동을 ‘이동’, ‘정지’, ‘자전거’ 세 대분류로 빠르게 예측한다. 이 초기 판단 결과에 따라 두 번째 레이어가 선택적으로 활성화되는데, 동적 활동(걷기·달리기·계단 등)일 경우 PLMN(Parallel LSTM‑MobileNet Network)이 호출된다. PLMN은 FFT, 웨이블릿 변환(WT), 가보 변환(GT)으로 만든 세 종류의 의사 이미지(시간‑주파수 매트릭스)를 각각 독립적인 LSTM 인코더에 입력해 시계열 특성을 추출한다. 이후 LSTM 출력들을 채널 차원에서 결합하고, Efficient Channel Attention(ECA) 모듈을 통해 각 스펙트럼 채널의 중요도를 학습한다. 마지막으로 Depthwise Separable Convolution(DSC) 블록을 적용해 파라미터와 MACC를 최소화하면서도 MobileNet‑style 특징 추출을 수행한다.

이 설계는 몇 가지 핵심 장점을 제공한다. 첫째, 계층형 구조는 메모리 사용량을 동적으로 조절한다. 정적 활동에선 경량 모듈만 실행돼 RAM 점유가 71 % 이상 감소하고, 동적 활동에만 비용이 높은 PLMN을 실행함으로써 전체 연산량을 최적화한다. 둘째, 다중 스펙트럼 융합은 FFT가 제공하는 전역 주기성, WT가 포착하는 순간적인 변동, GT가 잡아내는 고해상도 시간‑주파수 정보를 상호 보완적으로 활용한다. 셋째, ECA와 DSC를 결합함으로써 채널‑레벨 해석성을 확보한다. ECA 가중치는 각 스펙트럼·축의 기여도를 직접적으로 보여주어 의료·산업 현장에서 모델 신뢰성을 높인다. 넷째, 모델은 8‑bit 양자화와 연산자 융합을 포함한 전체 스택 최적화를 거쳐 C 코드로 변환돼 Cortex‑M4 MCU에서 2 ms 이하의 실시간 추론을 달성한다.

실험 결과는 MobileNetV3와의 직접 비교를 통해 입증된다. 동일 데이터셋(6축 IMU, 7가지 활동, 20명)에서 HPPI‑Net은 정확도 96.70 %를 기록했으며, MobileNetV3는 95.48 %에 머물렀다. 메모리 측면에서는 RAM 사용량이 22.3 KiB vs 77.5 KiB, ROM이 439.5 KiB vs 758 KiB로 각각 71 %와 42 % 절감되었다. 또한, 사후 MLP 기반 특성 기여도 분석을 통해 FFT, WT, GT 각각이 특정 활동(예: WT‑가 계단, GT‑가 사이클링)에서 주도적인 역할을 함을 시각화했다.

전반적으로 HPPI‑Net은 “고정밀·저전력·해석가능”이라는 세 축을 동시에 만족시키는 실용적인 HAR 솔루션으로, 웨어러블 디바이스, 스마트 홈, 산업 현장 등 메모리·연산 제한이 엄격한 엣지 환경에 바로 적용 가능하다.

엣지 마이크로컨트롤러용 실시간 인간 활동 인식: 동적 계층 추론과 다중 스펙트럼 센서 융합

초록

상세 분석

댓글 및 학술 토론

의견 남기기