스마트폰 기반 멀티모달 보행 이상 탐지와 시퀀스‑투‑시퀀스 RNN 혁신
** 본 논문은 스마트폰을 가슴에 고정하여 가속도·자이로·비디오 데이터를 동시 수집하고, RNN 기반 Seq2Seq 모델로 특징을 추출한 뒤 CNN 분류기로 정상·비정상 보행을 100% 정확도로 구분하는 주제별 맞춤 보행 이상 탐지 시스템을 제안한다. **
저자: Riccardo Bonetto, Mattia Soldan, Alberto Lanaro
**
본 논문은 스마트폰을 이용한 저비용, 비전문적인 보행 이상 탐지 시스템을 설계하고, 이를 실험적으로 검증한다. 연구 배경으로는 인간 행동 인식(HAR) 분야에서 웨어러블 센서와 영상 기반 시스템이 각각 장점과 한계를 가지고 있다는 점을 들며, 특히 3D 카메라와 같은 고가 장비는 실내·실외 구분이 어렵고 설치·운용 비용이 높다. 이에 저비용 스마트폰을 활용해 관성 센서와 영상 데이터를 동시에 수집함으로써, 멀티모달 정보를 융합하는 방식을 제안한다.
**데이터 수집 및 전처리**
피험자는 스마트폰을 가슴에 고정한 전용 지지대를 착용하고, 스마트폰 내장 가속도계·자이로·자력계와 후면 카메라를 동시에 작동시켜 데이터를 기록한다. 관성 데이터는 100~200 Hz의 불규칙 샘플링을 200 Hz로 보간하고, 40 Hz 저역통과 필터로 잡음을 억제한다. 영상은 30 fps로 촬영되며, 각 프레임에서 SIFT 키포인트를 추출하고 Farneback 옵티컬 플로우를 적용해 움직임 벡터를 얻는다. 이후 Nister 5‑point 알고리즘과 RANSAC을 사용해 기본 행렬(E)과 회전·이동 행렬을 추정하고, 이를 통해 롤·피치·요 각을 계산한다. 관성 데이터와 영상에서 추출된 각도 시퀀스는 시간 동기화를 위해 200 Hz로 보간된다.
**보행 사이클 검출**
가속도 수직축에 차분‑가우시안(DoG) 필터와 연속 웨이브렛 변환을 적용해 초기 접촉(IC)과 최종 접촉(FC) 시점을 검출한다. IC는 변환 신호의 로컬 최소값, FC는 2차 미분 후 로컬 최대값으로 정의한다. 검출된 IC·FC 사이의 구간을 하나의 보행 사이클로 간주하고, 각 사이클을 200 샘플(시간 축)로 정규화한다. 이렇게 정규화된 멀티채널 시계열(관성 9채널 + 영상 3채널)은 이후 모델 입력으로 사용된다.
**모델 아키텍처**
1) **Seq2Seq RNN 인코더‑디코더**: 입력 시퀀스를 그대로 복원하도록 학습된 오토인코더 형태의 Seq2Seq 모델을 사용한다. 인코더는 LSTM(또는 GRU) 기반이며, 마지막 은닉 상태를 추출한다. 이 은닉 상태는 (시간, 특성) 형태의 텐서로 재구성되어 CNN에 전달된다. 인코더는 정상 보행 데이터만으로 학습되어, 비정상 보행이 들어오면 은닉 표현이 크게 왜곡된다.
2) **CNN 분류기**: 재구성된 은닉 텐서는 2‑D 컨볼루션 레이어(3~4개)와 풀링, 배치 정규화, ReLU 활성화를 거쳐 전역 평균 풀링 후 완전 연결층으로 연결된다. 최종 Softmax(또는 시그모이드) 출력은 정상(0)·비정상(1) 라벨을 예측한다.
**학습 및 평가**
Seq2Seq 인코더는 정상 보행 사이클만을 사용해 지도학습 없이 재구성 손실(MSE) 최소화로 학습한다. CNN 분류기는 인코더 출력 특징을 입력으로, 정상·비정상 라벨이 균등하게 배분된 별도 데이터셋을 사용해 교차 엔트로피 손실로 학습한다. 비교 대상으로는 동일 전처리된 전체 시계열을 입력으로 하는 비선형 SVM(핵함수 RBF) 모델을 구현하였다. 실험 결과, 제안된 RNN‑Seq2Seq + CNN 파이프라인은 모든 테스트 케이스에서 100 % 정확도를 달성했으며, SVM은 평균 85 % 수준에 머물렀다.
**공헌 및 한계**
- **공헌**: (1) 스마트폰만으로 관성·영상 멀티모달 데이터를 실시간 수집·동기화하는 시스템 구현, (2) Seq2Seq 인코더를 사전 학습된 특징 추출기로 활용해 시계열 특성을 압축·강화, (3) 주제별(피험자별) 모델링으로 개인 맞춤형 이상 탐지 가능, (4) 전체 코드·데이터셋을 오픈소스로 공개해 재현성 확보.
- **한계**: 데이터셋 규모가 작고 피험자 수가 제한적이며, 비정상 보행은 실험자가 의도적으로 만든 변형에 국한된다. 또한 영상 처리 단계가 연산 비용이 높아 스마트폰 실시간 실행 가능성은 검증되지 않았다.
**향후 연구 방향**
다양한 연령·건강 상태의 피험자를 포함한 대규모 데이터베이스 구축, 경량화된 옵티컬 플로우 및 변형된 Seq2Seq(예: Transformer‑ 기반) 모델 적용, 그리고 실시간 모바일 구현을 위한 모델 압축·양자화 기법 연구가 필요하다. 또한 비정상 보행을 세부 클래스(예: 파킨슨, 고관절 손상 등)로 구분하는 다중 라벨 학습도 확장 가능성이 있다.
**결론**
스마트폰 기반 멀티모달 보행 분석에 Seq2Seq RNN과 CNN을 결합한 접근법은 저비용 환경에서도 높은 이상 탐지 정확도를 제공한다. 이는 의료·재활·스포츠 분야에서 개인 맞춤형 모니터링 시스템으로 활용될 잠재력을 보여준다.
**
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기