evt MNIST: 전통적인 MNIST를 스파이킹 형태로 변환한 이벤트 기반 데이터셋
📝 Abstract
Benchmarks and datasets have important role in evaluation of machine learning algorithms and neural network implementations. Traditional dataset for images such as MNIST is applied to evaluate efficiency of different training algorithms in neural networks. This demand is different in Spiking Neural Networks (SNN) as they require spiking inputs. It is widely believed, in the biological cortex the timing of spikes is irregular. Poisson distributions provide adequate descriptions of the irregularity in generating appropriate spikes. Here, we introduce a spike-based version of MNSIT (handwritten digits dataset),using Poisson distribution and show the Poissonian property of the generated streams. We introduce a new version of evt_MNIST which can be used for neural network evaluation.
💡 Analysis
**
1. 연구 배경 및 필요성
- SNN과 기존 데이터셋의 불일치: 기존 이미지 데이터셋(MNIST 등)은 프레임 기반이며, SNN은 시간에 따라 발생하는 스파이크 시퀀스를 입력으로 사용한다. 따라서 SNN 연구에 적합한 이벤트 기반 데이터가 절실히 필요하다.
- 포아송 스파이크 모델링: 생물학적 뉴런의 발화가 포아송 과정으로 근사된다는 가정은 널리 받아들여지고 있으며, 이를 이용해 정적 이미지를 동적 스파이크 스트림으로 변환하는 것이 합리적이다.
2. 주요 기여
| 번호 | 내용 | 평가 |
|---|---|---|
| 1 | evt_MNIST 데이터셋 제공: 60,000개의 학습 이미지와 10,000개의 테스트 이미지를 각각 784 × 100(픽셀 × 시간) 형태의 AER‑like 스파이크 매트릭스로 변환. | SNN 연구자들에게 즉시 활용 가능한 공개 벤치마크를 제공, 데이터셋 구축 비용 절감. |
| 2 | 포아송 기반 스파이크 생성 알고리즘: 픽셀 강도를 발화율로 매핑하고, ΔT(1 ms) 구간마다 r·ΔT 확률로 스파이크 발생 여부를 샘플링하는 간단한 절차(Algorithm 1) 제시. | 구현이 직관적이며, 기존 연구와 비교해 복잡도가 낮음. |
| 3 | 포아송 특성 검증: 여러 실험을 통해 생성된 스파이크 트레인이 실제 포아송 분포를 따름을 통계적으로 확인. | 데이터셋의 신뢰성을 뒷받침하는 중요한 검증 단계. |
| 4 | 오픈소스 공개: GitHub(https://github.com/MazdakFatahi/evt-MNIST ) 에 전체 데이터와 코드 제공. | 재현 가능성 및 커뮤니티 확산에 크게 기여. |
3. 방법론 상세
- 픽셀‑발화율 매핑: 픽셀 값(0‑255)을 0 Hz‑(255/4) Hz 범위의 발화율로 선형 변환 후, 최대 100 ms 동안 1000 Hz(100 spikes)까지 허용.
- 시간 이산화: 시뮬레이션 시간을 1 ms 구간(ΔT)으로 나누어, 각 구간당 최대 1개의 스파이크만 발생하도록 설계.
- 포아송 샘플링: r·ΔT 확률로 Bernoulli 샘플링을 수행, 이를 누적해 전체 스파이크 시퀀스 생성.
- 데이터 포맷: 각 이미지당 784(픽셀) × 100(시간) 이진 매트릭스로 저장, AER 프로토콜과 호환 가능하도록 설계.
4. 실험 및 결과
- 포아송성 검증: 동일 픽셀 강도에 대해 다수의 시뮬레이션을 수행, 스파이크 수 분포가 기대 포아송 파라미터(λ = r·T)와 일치함을 확인.
- 시각화: raster‑plot, spike‑train 그래프 등을 통해 밝은 픽셀일수록 스파이크 밀도가 높아지는 현상을 직관적으로 제시.
- 제한점: 논문 자체는 생성된 데이터셋을 이용한 SNN 학습 성능 평가가 부족하며, 기존 프레임 기반 MNIST와의 정확도 비교가 포함되지 않음.
5. 강점
- 실용성: 바로 사용할 수 있는 데이터셋 제공으로 SNN 연구 초기 단계에서 큰 장점.
- 단순하고 재현 가능한 알고리즘: 복잡한 변환 없이 포아송 샘플링만으로 구현 가능.
- 오픈소스: 커뮤니티 기반 개선 및 확장이 용이.
6. 약점 및 개선점
벤치마크 성능 평가 부재
- 생성된 evt_MNIST를 사용한 실제 SNN 모델(예: Leaky‑Integrate‑and‑Fire, STDP 기반 네트워크)의 학습/테스트 정확도와 기존 ANN 기반 MNIST 결과를 비교하지 않음.
- 제안: 대표적인 SNN 아키텍처(예: Spiking‑CNN, Neuromorphic‑MLP)와 함께 실험을 수행해 데이터셋의 유용성을 정량화.
포아송 가정의 한계
- 실제 생물학적 뉴런은 재발성(refractoriness)과 비동질성(heterogeneity)을 보이며, 단순 포아송 모델은 이를 무시한다.
- 제안: 재발성 효과를 포함한 renewal process 혹은 Gamma‑process 기반 변형을 제공하고, 두 모델 간 차이를 비교 분석.
시간 해상도와 프레젠테이션 시간 선택 근거 부족
- 100 ms, 1 ms 구간 선택이 임의적이며, 다른 SNN 응용(예: 실시간 로봇 제어)에서는 다른 스케일이 필요할 수 있다.
- 제안: 다양한 프레젠테이션 시간(10 ms, 200 ms 등)과 ΔT 값을 실험적으로 검증하고, 파라미터 가이드라인을 추가.
데이터 포맷 및 인터페이스
- 현재는 784 × 100 이진 매트릭스로 제공되지만, 기존 AER 툴킷(예: jAER, BindsNET)과 바로 연결하기 위한 event list(timestamp, address) 형태가 부재.
- 제안: CSV 혹은 protobuf 기반의 event list 변환 스크립트를 제공해 호환성을 높인다.
7. 향후 연구 방향
- 다중 클래스/다채널 확장: 현재는 흑백 10‑class MNIST에 국한되므로, CIFAR‑10/100, ImageNet 등 컬러 이미지에 대한 이벤트 변환 방법을 탐색.
- 동적 센서와의 연계: 실제 DVS 센서에서 수집한 데이터와 evt_MNIST를 혼합해 Hybrid‑training 전략을 개발.
- 학습 효율성 분석: 포아송 스파이크와 다른 코딩 방식(Temporal‑contrast, Rank‑order 등) 간 학습 속도·정확도 차이를 정량화.
**
📄 Content
2016 제1회 전기·컴퓨터 공학 신연구 성과 국제학술대회
evt_MNIST: 전통적인 MNIST의 스파이크 기반 버전
이벤트 기반 MNIST
Mazdak Fatahi
컴퓨터공학과, 라지 대학교, 케르만샤, 이란
이메일: Mazdak.fatahi@gmail.com
전화: +98 918 359 2337
Mahyar Shahsavari
CRIStAL 연구소, 릴 대학교, 프랑스 (F‑59000 Lille)
이메일: Mahyar.Shahsavari@ed.univ‑lille1.fr
Mahmood Ahmadi
컴퓨터공학과, 라지 대학교, 케르만샤, 이란
이메일: m.ahmadi@razi.ac.ir
Arash Ahmadi
전기공학과, 라지 대학교, 케르만샤, 이란
이메일: A.ahmadi@razi.ac.ir
Philippe Devienne
CRIStAL 연구소, 릴 대학교, 프랑스 (F‑59000 Lille)
이메일: Philippe.Devienne@univ‑lille1.fr
초록
벤치마크와 데이터셋은 머신러닝 알고리즘 및 신경망 구현을 평가하는 데 중요한 역할을 한다. 이미지용 전통적인 데이터셋인 MNIST는 다양한 학습 알고리즘의 효율성을 검증하는 데 널리 사용된다. 그러나 스파이킹 신경망(SNN) 은 스파이크 입력을 필요로 하므로 기존 프레임‑기반 이미지와는 다른 요구사항을 가진다. 생물학적 피질에서는 스파이크 타이밍이 불규칙하다고 알려져 있으며, 포아송 분포가 이러한 불규칙성을 적절히 설명한다는 것이 일반적인 견해이다. 본 논문에서는 포아송 분포를 이용해 MNIST(손글씨 숫자 데이터셋)의 스파이크 기반 버전을 제안하고, 생성된 스파이크 스트림이 포아송 특성을 갖는 것을 보인다. 또한 신경망 평가에 사용할 수 있는 새로운 evt_MNIST 버전을 소개한다.
키워드 – 뉴로모픽, 스파이크 트레인, 스파이킹 신경망, AER, 포아송 분포
I. 서론
머신러닝 알고리즘의 정확도와 성능을 검증하기 위해서는 다양한 데이터베이스가 필요하다. 예를 들어, 얼굴 표정 인식을 위한 신경망의 인식률을 평가하려면 방대한 학습·검증 데이터가 요구된다. 현재 널리 사용되는 표준 데이터베이스들은 인공신경망(ANN) 에 최적화돼 있으며, 프레임‑기반 이미지가 전제이다.
스파이킹 신경망은 뉴런 간 통신 수단으로 스파이크를 사용한다. 스파이크 자체는 정보를 담고 있지 않으며, 스파이크의 개수와 타이밍이 핵심 의미를 가진다[1]. 따라서 기존 벤치마크를 SNN 평가에 활용하려면, 적절한 스파이크 수와 간격을 고려해 비례적인 스파이크 시퀀스를 추출해야 한다.
공개된 SNN 전용 데이터셋이 제한적인 상황에서, 기존 ANN 데이터셋을 스파이킹 형태로 변환하는 방법이 필요하다. 예를 들어, [2]에서는 각 이미지를 350 ms 동안 포아송 분포 기반 스파이크 스트림으로 제시하고, 입력 뉴런의 발화율을 0 Hz~(255/4) Hz 사이로 매핑한다. 또한 최소 5개의 스파이크가 발생할 때까지 과정을 반복한다.
다른 연구들([3],[4])은 비동기 전압 스파이크를 이용해 정적 이미지를 이벤트 스트림으로 변환했으며, 픽셀 강도에 비례하는 확률로 스파이크를 생성한다.
우리의 조사에 따르면, 최신 SNN 아키텍처([5]–[8])는 스파이킹 ‘망막’ 으로부터 직접 자극을 받아 이미지 처리를 수행한다. 특히 [7]에서는 동적 비전 센서(DVS) 로부터 얻은 스파이크가 시각 입력에 대한 응답으로 사용된다. DVS가 방출한 스파이크 중 일부를 무작위로 선택해 은닉층 뉴런에 매핑한다.
하지만 Neuromorphic 비전 센서는 아직 공개적으로 이용 가능하지 않다. 스파이크 트레인은 단일 뉴런이 발생시키는 스파이크 시점들의 연속이며, 규칙적이든 불규칙적이든 모두 가능하다[1]. 생물학적 피질에서는 스파이크 타이밍이 비주기적이며, 이러한 불규칙성은 포아송 과정에 의해 모델링될 수 있다. 여기서는 각 스파이크가 다른 스파이크와 독립적이라고 가정하고, 포아송 과정을 통해 스파이크 트레인을 기술한다.
일부 신경동역학은 독립 스파이크 가정을 깨뜨릴 수 있지만[9], 본 연구에서는 동질(동일) 포아송 과정을 가정한다. 즉, 각 시냅스의 발화율은 시간에 따라 일정하다고 본다. 포아송 과정은 가장 단순한 확률적 뉴런 발화 모델이며, 재발성(refractoriness)을 고려하려면 갱신 과정(renewal process) 을 도입해야 한다[10]. 실제 실험에서도 포아송 과정은 스파이크 생성 및 알고리즘 평가에 충분히 적합함이 입증되었다.
본 논문에서는 포아송 분포를 이용해 MNIST 이미지의 스파이크 트레인을 생성하고, 프레임‑기반 데이터셋을 픽셀 강도에 비례하는 스파이크 기반 데이터셋으로 변환한다. 다음 절에서는 DVS와 MNIST를 간략히 소개하고, 제안 알고리즘과 evt_MNIST 데이터셋을 설명한다. 이후 제안 방법의 정확성을 포아송 시퀀스로 평가하고, 최종적으로 결론을 제시한다.
II. DYNAMIC VISION SENSOR (DVS)와 MNIST 소개
A. Dynamic Vision Sensor (DVS)
Neuromorphic 분야에서 ‘망막’ 은 주소‑이벤트 표현(Address‑Event Representation, AER) 기반 바이오 영감 이미지 센서이다. 이 센서는 장면으로부터 스파이크 트레인을 측정하고, 해당 스파이크 시퀀스를 출력한다. AER에서는 스파이크가 디지털 주소 형태로 전달되어 이미지의 주소‑이벤트 표현을 만든다.
[11]에서는 비동기 시간 대비 콘트라스트 비전 센서를 제안했으며, 각 픽셀의 상대 강도 변화에 따라 독립적으로 스파이크 이벤트를 생성한다. Dynamic Vision Sensor (DVS)(그림 1)는 이러한 비동기 시간 대비 콘트라스트 센서이며, 망막과 유사하게 동작한다. 전체 이미지를 전송하는 대신, 픽셀 수준의 변화와 그 시점만을 마이크로초 단위로 전송한다(그림 2).
이러한 Neuromorphic 비전 센서는 아직 공개적으로 제공되지 않으며, 따라서 우리는 evt_MNIST 를 공개 스파이킹 벤치마크로 제공하고자 한다.
B. MNIST: 손글씨 숫자 데이터베이스
MNIST(Mixed National Institute of Standards and Technology) 데이터베이스는 손글씨 숫자 인식 연구에서 가장 널리 사용되는 표준 데이터셋이다([12]). 60 000개의 학습 이미지와 10 000개의 테스트 이미지로 구성되어 있으며, 다양한 신경망 연구에서 성능 비교의 기준점으로 활용된다.
예를 들어, Hinton 교수는 Deep Belief Networks(DBN)의 정확도를 평가하기 위해 MNIST를 사용했으며, 이후 많은 연구([2],[4],[14]‑[16])에서도 동일한 데이터셋을 채택하였다.
MNIST는 MNIST 웹사이트([12])에서 다운로드 가능하며, 기술적인 세부 사항은 우리 보고서([17])에 정리되어 있다. 그림 3은 MNIST에서 추출한 100개의 샘플 이미지이다.
III. 이벤트‑구동형 MNIST 생성
앞서 소개한 바와 같이, 우리는 포아송 분포를 이용해 MNIST 이미지의 스파이크 트레인을 생성한다. 프레임‑기반 데이터셋을 픽셀 강도에 비례하는 스파이크 기반 데이터셋으로 변환하는 두 가지 일반적인 방법이 있다[10].
첫 번째 방법은 포아송‑지수 관계를 이용한다. 인터‑스파이크 간격(ISI)을 지수 분포에서 무작위로 추출하고, 이들을 누적하면 연속적인 스파이크 시점 시퀀스를 얻을 수 있다.
우리의 가정은 각 스파이크가 다른 스파이크와 독립이며, 스파이크 생성은 즉시적인 발화율에만 의존한다는 것이다.
시뮬레이션에서는 MNIST 픽셀 밀도를 즉시 발화율로 간주한다. 즉, 픽셀 강도가 클수록 짧은 시간 구간(ΔT) 내에 스파이크가 발생할 확률이 높아진다. ΔT 구간당 최대 스파이크 수를 1로 제한하고, 전체 시뮬레이션 시간을 n개의 구간으로 나눈다:
[ \text{Bins} = \frac{T}{\Delta T} \tag{1} ]
발화율 (r) (픽셀 밀도)는 각 ΔT 구간에서 스파이크가 발생할 확률을 결정한다:
[ P(\text{spike in } \Delta T) = r \Delta T \tag{2} ]
동질 포아송 과정에서는 모든 ΔT 구간에 대해 동일한 발화율이 적용되므로, 짧은 구간(예: 1 ms) 동안 스파이크가 발생할 확률은 (r\Delta T) 가 된다. 이를 이용해 알고리즘 1과 같이 간단히 샘플링하면, 각 스파이크는 이산 시간에 할당된다.
알고리즘 1: 포아송 스파이크 트레인 생성
- 시뮬레이션 시간 (T)와 구간 (\Delta T)를 정의한다.
- 각 픽셀에 대해 발화율 (r) (0 ~ 1) 를 픽셀 강도에 비례하도록 정한다.
- 각 구간마다 난수 (u \sim \mathcal{U}(0,1)) 를 생성한다.
- (u < r\Delta T) 이면 해당 구간에 스파이크를 기록한다.
- 전체 구간에 대해 3‑4 과정을 반복한다.
위 절차를 통해 포아송 분포를 따르는 스파이크 시퀀스를 얻을 수 있다. 실제로, [18]에 따르면 구간당 스파이크 발생 확률이 (r\Delta T) 일 때, 전체 시간 (T) 동안의 스파이크 수 (n) 은 포아송 분포
[ P_T[n] = \frac{(\lambda)^n e^{-\lambda}}{n!},\quad \lambda = rT ]
를 따른다.
이 방법을 적용해 evt‑MNIST1 데이터셋([19])을 생성하였다.
이 글은 AI가 자동 번역 및 요약한 내용입니다.