초경량 인간 활동 인식을 위한 µBi‑ConvLSTM 모델
초록
µBi‑ConvLSTM은 두 단계의 표준 합성곱과 4배 시간 풀링, 단일 양방향 LSTM을 결합해 평균 11.4 K 파라미터만 사용한다. 8개 HAR 데이터셋에서 93 % 이상의 macro F1을 달성했으며, INT8 양자화 후에도 0.21 % 이하의 정확도 손실만 보인다. 이는 마이크로컨트롤러 수준의 SRAM 제한을 만족하는 초경량 모델이다.
상세 분석
본 논문은 웨어러블 디바이스에 탑재 가능한 인간 활동 인식(HAR) 모델의 설계 목표를 명확히 정의한다. 기존 경량 모델인 TinyHAR(55 K 파라미터)와 TinierHAR(34 K 파라미터)는 메모리 사용량이 OS와 센서 드라이버를 포함한 실제 SRAM 한계에 근접하거나 초과한다는 점을 지적한다. µBi‑ConvLSTM은 이러한 한계를 극복하기 위해 파라미터 수를 평균 11.4 K로 낮추면서도 O(N) 시간 복잡도를 유지한다.
핵심 설계 원칙은 다섯 가지이다. 첫째, 시간 차원에서 4배 압축을 달성하기 위해 두 단계의 합성곱 블록 뒤에 각각 2× max‑pooling을 적용한다. 이는 LSTM 입력 시퀀스 길이를 T/4로 감소시켜 메모리와 연산량을 크게 줄인다. 둘째, 입력 채널 수가 3~9개에 불과한 센서 데이터 특성상 표준 합성곱을 사용해 채널 간 상호작용을 보존한다. 깊이별 분리 합성곱은 채널 간 정보 흐름을 제한해 성능 저하를 초래할 수 있다. 셋째, 단일 넓은 양방향 LSTM(H=24)을 배치해 파라미터를 효율적으로 집중시킨다. 네번째, 양방향 구조는 사건 기반(예: gait freeze)과 같이 전후 문맥이 중요한 경우에 유리하지만, 주기적 움직임(예: 걷기)에서는 큰 이득을 제공하지 않음이 실험을 통해 확인되었다. 마지막으로, 주의 메커니즘을 배제하고 O(N) 복잡도를 유지함으로써 마이크로컨트롤러에서 예측 지연을 일정하게 만든다.
실험에서는 UCI‑HAR, MotionSense, WISDM, PAMAP2, Opportunity, UniMiB‑SHAR, SKODA, Daphnet 등 8개의 공개 데이터셋을 사용했다. 각 데이터셋에 대해 동일한 전처리(Butterworth 저역통과, z‑score 정규화, 50 % 오버랩 윈도우)와 교차 검증 프로토콜을 적용했으며, AdamW 옵티마이저와 코사인 스케줄링을 통한 200 epoch 학습을 수행했다. 하이퍼파라미터 탐색은 Optuna의 TPE를 50회 시행해 학습률, 가중치 감소, 드롭아웃 비율을 최적화하였다.
성능 측면에서 µBi‑ConvLSTM은 DeepConvLSTM(136 K 파라미터) 대비 평균 3 %~5 % 낮은 macro F1를 기록했지만, 파라미터 대비 효율성은 현저히 우수했다. 특히 UCI‑HAR(93.41 %), SKODA(94.46 %), Daphnet(88.98 %)에서 경쟁 모델들과 거의 동등한 수준을 유지했다. 반면 PAMAP2와 Opportunity와 같은 다채널, 다클래스 데이터에서는 TinyHAR와 TinierHAR가 약간 앞섰지만, 이는 모델 용량이 더 큰 경우에 한정된 차이였다.
추가적인 Ablation 연구에서는 (1) 양방향 LSTM을 제거했을 때 episodic 데이터(Daphnet)에서 F1가 1.8 % 감소했으며, (2) 4× 시간 풀링을 2×로 축소하면 연산량은 늘어나지만 정확도는 크게 변하지 않아 압축 비율이 메모리 절감에 핵심임을 확인했다. 양자화 실험에서는 사후 INT8 양자화 후 평균 0.21 %의 F1 감소만 발생했으며, 모델 크기는 23 KB(average)로 마이크로컨트롤러 SRAM(≤32 KB) 내에 적합했다.
전체적으로 µBi‑ConvLSTM은 파라미터 수와 메모리 사용량을 극단적으로 최소화하면서도 실시간 HAR에 필요한 정확도를 유지한다는 점에서, 초소형 웨어러블 및 IoT 디바이스에 바로 적용 가능한 실용적인 솔루션으로 평가된다.
댓글 및 학술 토론
Loading comments...
의견 남기기