움직이는 시각: 객체 움직임 민감도를 활용한 바이오인스파이어드 시각 주의 시스템
초록
본 논문은 동적 환경에서 실시간으로 주의를 전환할 수 있는 스파이킹 컨볼루션 신경망(sCNN) 기반 시스템을 제안한다. 이벤트 기반 카메라와 스피크(Speck) 뉴로모픽 하드웨어를 결합해 객체 움직임 민감도(OMS)를 이용한 움직이는 물체 분할과 프로토‑오브젝트 검출을 수행하며, 평균 IoU 82.2%, SSIM 96%의 성능을 달성한다.
상세 분석
이 연구는 기존의 프레임 기반 비전 파이프라인이 갖는 고전력·고지연 문제를 극복하기 위해, 망막의 비동기 이벤트 전송 방식을 모방한 다이내믹 비전 센서(DVS)와 스파이킹 뉴럴 네트워크(SNN)를 결합한 완전 비학습형(bio‑inspired) 아키텍처를 설계하였다. 핵심 모듈은 세 가지로 구성된다. 첫 번째는 스파이킹 객체 움직임 민감도(sOMS) 모델로, 인간 망막의 중심‑주변 억제 메커니즘을 전자적으로 구현해 카메라 자체의 자이로 움직임에 의해 발생하는 전역 이벤트를 억제하고, 상대적인 물체 움직임만을 강조한다. 이를 위해 이벤트 스트림을 시공간 윈도우로 분할하고, 가중치가 부여된 스파이킹 콘볼루션 필터를 적용해 움직임 방향과 속도에 대한 선택적 반응을 생성한다. 두 번째는 SNN 기반 프로토‑오브젝트 모델(SNN Proto‑Object)이다. 이 모듈은 sOMS가 만든 OMS 맵을 입력으로 받아, Gestalt 법칙(연속성, 근접성, 도형‑배경 구분 등)을 스파이킹 뉴런의 발화 패턴으로 구현함으로써 잠재적 객체 영역을 빠르게 군집화한다. 마지막으로 스파이킹 어텐션 컨트롤(sAC) 모듈은 가장 높은 살리엔시(P) 값을 가진 프로토‑오브젝트를 선택하고, 이를 목표로 팬‑틸트 유닛(PTU)을 제어해 급속한 사카드 움직임을 수행한다. 시스템은 고정시점(픽스레이셔널) 눈 움직임을 주기적으로 삽입해 정적 배경의 이벤트 소멸을 방지하고, 연속적인 관심 전환을 가능하게 한다.
성능 평가는 두 개의 공개 데이터셋을 사용하였다. EVIMO(이벤트 카메라 움직임 분할)에서는 평균 교집합‑합(IoU) 82.2%와 구조적 유사도(SSIM) 96%를 기록했으며, 이는 기존 프레임 기반 및 비스파이킹 방법보다 현저히 높은 정확도와 시각적 일관성을 보여준다. 또한 LLE‑VOS(저조도 비디오 객체 분할)에서는 실내 88.8%, 실외 89.8%의 정확도를 달성해 저조도 환경에서도 강인함을 입증한다. 실시간 데모에서는 전체 파이프라인이 0.124 초 내에 동적 장면을 처리해, 로봇이 ‘방황(wander)’하며 목표 물체를 추적하고 사카드하는 과정을 시연하였다. 학습이 필요 없는 설계 덕분에 새로운 환경에서도 파라미터 재조정 없이 바로 적용 가능하며, 스피크 하드웨어의 저전력·저지연 특성으로 전체 시스템 전력 소모를 크게 낮출 수 있다.
핵심 인사이트는 (1) 이벤트 기반 센서와 스파이킹 연산의 결합이 데이터 양을 1000배 이상 축소하면서도 실시간성을 확보한다는 점, (2) 인간 망막의 OMS 메커니즘을 디지털 스파이킹 회로로 구현함으로써 자이로에 의한 잡음 이벤트를 효과적으로 억제하고 물체 움직임을 강조한다는 점, (3) 프로토‑오브젝트 검출을 스파이킹 형태로 수행함으로써 복수 객체 상황에서도 단일 최고 살리엔시 객체를 빠르게 선택할 수 있다는 점이다. 이러한 설계 원리는 향후 복합적인 시각‑운동 통합 로봇 시스템, 자율 드론, 그리고 에너지 제한이 큰 엣지 디바이스에 적용될 잠재력을 가진다.
댓글 및 학술 토론
Loading comments...
의견 남기기