초저전력 이벤트 카메라 기반 스마트 안경 제스처 인식 시스템
초록
Helios 2.0은 이벤트 카메라와 양자화 인식 모델을 결합해 스마트 안경에 적합한 초저전력 실시간 제스처 인식 솔루션을 제시한다. 미세한 엄지 스와이프와 더블 핀치를 마이크로 제스처로 정의하고, 마크오프 기반 시뮬레이터로 합성 데이터를 대규모 생성한다. 5단계 양자화 인식 아키텍처와 DSP 전용 최적화를 통해 6‑8 mW 전력 소모에 70 %(2채널)·80 %(6채널) 이상의 F1 점수를 달성한다.
상세 분석
Helios 2.0은 기존 Helios 1.0 대비 세 가지 핵심 혁신을 구현한다. 첫째, 마이크로 제스처 설계이다. 사용자는 엄지와 검지 사이의 좌우 스와이프와 두 번의 핀치를 수행하는데, 이는 손가락 움직임만으로 직관적인 명령을 전달할 수 있어 학습 부담이 거의 없다. 이러한 제스처는 이벤트 카메라가 포착하기 쉬운 고주파 변화에 최적화돼, 저조도·배경 복잡도와 무관하게 높은 신호‑대‑노이즈 비를 유지한다.
둘째, 데이터 생성 파이프라인이다. 저작권·라벨링 비용을 최소화하기 위해 ESIM 기반 시뮬레이터와 Unity 렌더링 엔진을 결합, 마크오프 전이 확률과 클래스 균형 샘플링, 그리고 운동학적 블렌딩을 적용해 2초 길이의 연속 제스처 시퀀스를 대량 합성한다. 이렇게 만든 합성 데이터는 실제 사용자와 다양한 환경(실내·실외, 조명 변화)에서 수집된 3개의 벤치마크와 비교해도 도메인 격차가 최소화된다.
셋째, 모델 설계와 최적화이다. 전체 파이프라인은 5단계 구조로, 99.8 % 이상의 연산을 Qualcomm Snapdragon Hexagon DSP에 양자화(8‑bit)된 형태로 오프로드한다. 양자화 인식 훈련(QAT)과 단계별 미세조정(fine‑tuning)을 통해 정밀도를 유지하면서 전력 소모를 150 mW 수준에서 6‑8 mW 수준으로 25배 감소시켰다. 또한, 시퀀스 기반 학습으로 시간적 연속성을 학습해 단일 프레임 기반 모델보다 레이턴시를 2.4 ms까지 줄였다.
실험 결과는 두 가지 모델 변형을 제시한다. 2채널 입력(시간‑표면) 모델은 70 % 이상의 F1 점수를 기록했고, 6채널 입력(다중 시간‑표면 + 이벤트 볼륨) 모델은 80 % 이상을 달성했다. 모든 실험은 실제 스마트 안경에 탑재된 하드웨어에서 수행됐으며, 전력 측정은 샤시 전류와 전압을 16‑bit ADC로 정밀 측정해 모델 전용 소비량을 정확히 분리했다. 결과적으로 Helios 2.0은 기존 프레임 기반 혹은 고전력 이벤트 기반 솔루션 대비 정확도 20 %·전력 25배 개선을 입증했다.
이 논문은 합성 데이터와 양자화 인식이 결합될 때, 저전력 웨어러블에서 복잡한 비전 작업을 수행할 수 있음을 실증한다. 향후 연구는 더 다양한 제스처 세트와 사용자 맞춤형 적응, 그리고 멀티모달(예: IMU·음성) 융합을 통해 인터랙션 폭을 넓히는 방향으로 진행될 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기