스파이킹감마 서브시게이트 그라디언트 없이 정밀 시간 학습을 구현한 스파이킹 신경망
초록
스파이킹감마 모델은 내부 재귀 메모리와 시그마‑델타 스파이크 코딩을 결합해, 서브시게이트 그라디언트 없이도 피드포워드 SNN을 온라인으로 정밀한 시간 패턴을 학습하도록 한다. 시간 해상도에 민감하지 않으며, BPTT 없이 직접 오류 역전파가 가능해 하드웨어 구현에 유리하다.
상세 분석
본 논문은 기존 SNN 학습이 시간 해상도에 따라 메모리·연산 비용이 급증하고, 서브시게이트 그라디언트(SG) 기반 BPTT·RTRL이 장기 의존성에서 불안정해지는 문제점을 정확히 지적한다. 이를 해결하기 위해 저자들은 두 가지 핵심 아이디어를 제시한다. 첫째, 뉴런 내부에 적응형 재귀 메모리(‘버킷’)를 두어 과거 입력을 스무딩된 지연 형태로 저장한다. 이 버킷은 연속적인 leaky‑bucket 구조로 구현되며, 각 버킷은 서로 다른 전이율 α_k 를 갖는다. 결과적으로 입력 스파이크 시퀀스는 여러 시간 스케일의 커널 κ_k 로 변환돼 선형 결합된 연속 신호 y_j(t) 를 만든다. 둘째, 이 연속 신호를 시그마‑델타 코딩 방식으로 스파이크화한다. 구체적으로 z_j(t)=y_j(t)-\hat y_j(t-1) 가 임계값 θ_j 을 초과하면 스파이크가 발생하고, 발생한 스파이크는 바로 \hat y_j(t) 에 재투입돼 추정 오차를 보정한다. 중요한 점은 \hat y_j(t) 와 y_j(t) 가 동일한 버킷 기반 표현을 공유하므로, 역전파 시 스파이크 자체를 미분할 필요가 없다는 것이다. 따라서 손실 L(t) 에 대한 파라미터 w_{ij} 와 버킷 가중치 v_{kj} 의 그래디언트는 전통적인 체인룰만으로 계산되며, ∂\hat y_j/∂y_j=1 이라는 특성을 이용해 SG를 완전히 배제한다.
이 설계는 다음과 같은 장점을 제공한다. (1) 시간 해상도에 독립적이다. 버킷이 과거 정보를 압축 저장하므로, 타임스텝을 늘려도 메모리·연산 복잡도가 선형적으로 증가한다. (2) 온라인 학습이 가능하다. 각 타임스텝마다 현재 버킷 상태와 손실을 이용해 즉시 파라미터를 업데이트하므로, 긴 시퀀스에서도 누적 오류가 크게 축적되지 않는다. (3) 스파이크 수를 최소화한다. 시그마‑델타 코딩은 오차가 클 때만 스파이크를 발생시키므로, 자연스럽게 희소성을 유지한다. (4) 피드포워드 구조이면서도 장기 의존성을 학습한다. 버킷이 여러 지연을 내재하므로, 외부 메모리 셀(LSTM 등) 없이도 과거 이벤트의 조합을 감지할 수 있다.
실험에서는 (a) 단순 지연 검출, (b) 에코로케이션(음파 반향) 과제, (c) DVS Gesture, (d) SHD(스피치-핸드폰 데이터셋), (e) SSC(스파이크 시퀀스 분류) 등 5가지 베치마크를 사용했다. 특히 DVS Gesture와 SHD에서 기존 SG 기반 온라인 방법(FPTT, ES‑D‑RTRL 등)을 크게 앞서는 정확도를 기록했으며, 타임스텝을 0.1 ms부터 1 ms까지 변화시켜도 성능 저하가 거의 없었다. 또한 스파이크 평균 발화율이 5 % 이하로 유지돼 에너지 효율성도 입증되었다.
한계점으로는 현재 버킷 가중치 v_{kj} 가 전역(뉴런 단위) 혹은 시냅스 단위로 고정돼 있어, 매우 복잡한 비선형 시간 변조를 표현하는 데 제약이 있을 수 있다. 또한 하드웨어 구현 시 버킷 연산을 아날로그 회로로 매핑하는 구체적인 설계 가이드가 부족하다. 향후 연구에서는 버킷 구조를 동적으로 학습하거나, 멀티‑스케일 버킷을 병렬화해 FPGA/ASIC에 최적화하는 방향이 기대된다.
요약하면, SpikingGamma는 서브시게이트 그라디언트 없이도 피드포워드 SNN을 정밀한 시간 학습이 가능하도록 만든 혁신적인 모델이며, 뉴로모픽 하드웨어와의 직접 매핑을 위한 실용적인 경로를 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기