합성 눈 움직임 데이터와 스파이킹 모델 훈련을 위한 Blender V2E 파이프라인

합성 눈 움직임 데이터와 스파이킹 모델 훈련을 위한 Blender V2E 파이프라인
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 Blender를 이용해 안구의 급속 사카드와 고정(Fixation) 움직임을 합성하고, 이를 V2E 시뮬레이터로 이벤트 카메라 스트림으로 변환하는 파이프라인을 제안한다. 생성된 데이터셋을 기반으로 두 가지 스파이킹 신경망(SNN) 구조를 학습시킨 뒤, 실제 이벤트 카메라 데이터에 파인튜닝하여 최대 0.83의 정확도를 달성하였다. 또한 SNN이 기존 인공신경망(ANN) 대비 연산 효율성과 에너지 효율에서 큰 이점을 보임을 실험적으로 입증하였다.

상세 분석

SynSacc 논문은 눈 움직임 연구에서 가장 큰 병목 중 하나인 고품질 라벨링된 이벤트 데이터의 부족을 합성 데이터 생성으로 해결하려는 시도를 보여준다. 먼저 Blender 3D 엔진을 활용해 안구 모델에 좌·우 안구의 뼈대(armature)를 정의하고, 사카드와 고정 구간을 프레임 단위로 랜덤 회전 벡터를 삽입해 시뮬레이션한다. 좌안구 회전 데이터를 Y축을 반전시켜 우안구에 적용함으로써 인간의 양안 협동 운동을 사실적으로 재현한다. 이 과정은 알고리즘 1에 명시된 대로 키프레임 기반으로 구현돼, 회전 궤적을 정확히 기록하고 재현한다.

생성된 RGB 시퀀스는 V2E(Video‑to‑Event) 시뮬레이터에 전달된다. 여기서 Super‑SloMo를 이용해 8배 슬로우모션 보간을 수행해 시간 해상도를 크게 높인 뒤, 로그 강도 변화가 사전 정의된 임계값(θON=θOFF=0.2) 이상일 때 이벤트를 발생시킨다. 노이즈 프리셋을 적용해 실제 DVS346 센서와 유사한 배경 잡음, 누설 이벤트, 샷 노이즈 등을 주입함으로써 합성 데이터가 과도하게 깨끗해지는 것을 방지한다. 이러한 설정은 실제 센서의 동작 특성을 반영해 모델이 현실 데이터에 과적합되지 않도록 설계된 점이 주목할 만하다.

데이터 표현 측면에서 저자는 이벤트를 이진 스파이크 텐서 S(x,y,k,p) 로 직접 변환한다. 시간 축을 일정한 bin 크기로 양자화하고, 각 픽셀·시간·극성에 대해 스파이크 존재 여부만을 기록함으로써 스파이킹 신경망의 입력 요구사항에 최적화한다. 코딩 방식은 레이트 코딩을 채택했는데, 이는 시간 잡음에 강인하고 학습 안정성을 높이는 장점이 있다. 레이트 코딩은 일정 시간 윈도우 내 스파이크 수를 비율로 변환해 신경망에 전달한다.

SNN 구조는 현재 연구에서 두 가지 경량형 아키텍처를 사용한다. 모두 CUBA‑LIF(전류 기반 누설 적분‑발화) 뉴런을 채택했으며, 이는 전류와 전압을 분리해 업데이트함으로써 학습 시 그래디언트 흐름을 안정화한다. 첫 번째 모델은 3‑계층 컨볼루션‑풀링‑전역 풀링 구조에 LIF 뉴런을 삽입해 공간‑시간 특징을 추출한다. 두 번째 모델은 완전 연결형으로, 입력 스파이크를 직접 시간 차원에서 누적해 간단히 분류한다. 두 모델 모두 시간 윈도우를 10 ms, 20 ms, 40 ms 등 다양한 해상도로 실험했으며, 해상도 변화에 크게 영향을 받지 않고 0.78~0.83 사이의 정확도를 유지한다.

실제 이벤트 카메라 기반 EV‑Eye 데이터셋에 대해 파인튜닝을 수행했을 때, 사전 학습된 SNN이 ANN 대비 5배 이상 적은 연산량(시냅스 연산 수)과 3배 이상의 에너지 절감 효과를 보였다. 이는 스파이킹 네트워크가 이벤트 데이터의 희소성을 그대로 활용해 불필요한 연산을 최소화한다는 점을 실증한다. 또한 전이 학습 결과, 합성 데이터만으로 사전 학습한 모델이 실제 데이터에 빠르게 적응하며, 라벨링 비용을 크게 절감할 수 있음을 보여준다.

전체적으로 이 논문은 (1) Blender‑V2E 파이프라인을 통한 고품질 합성 이벤트 데이터 생성, (2) 레이트 코딩 기반 이진 스파이크 표현, (3) 경량 CUBA‑LIF SNN 설계, (4) 실제 데이터에 대한 전이 학습 검증이라는 네 가지 핵심 기여를 제공한다. 특히 GDPR‑준수와 같은 개인정보 보호 요구사항을 만족하면서 대규모 눈 움직임 데이터셋을 자동으로 생성할 수 있다는 점은 향후 신경과학, 인간‑컴퓨터 인터페이스, 증강현실 등 다양한 분야에 실용적인 파급 효과를 기대하게 만든다.


댓글 및 학술 토론

Loading comments...

의견 남기기