하드웨어 가속 그래프 신경망을 이용한 이벤트 기반 오디오 분류와 키워드 스포팅 FPGA 구현
초록
본 논문은 인공 와우를 통해 시계열 오디오를 희소 이벤트 스트림으로 변환하고, 이를 그래프 형태로 모델링한 이벤트‑그래프 신경망(EGNN)을 SoC FPGA에 구현한다. SHD 데이터셋에서 92.7% 정확도(파라미터 10배·67배 감소)를 달성했으며, 양자화 모델은 FPGA 기반 스파이킹 신경망을 19.3% 앞서면서 자원·지연을 크게 절감한다. 또한 이벤트 오디오 키워드 스포팅 시스템을 설계해 95% 단어 종료 검출 정확도와 10.53 µs 지연, 1.18 W 전력 소모를 기록한다.
상세 분석
본 연구는 neuromorphic 센서가 생성하는 비정형 이벤트 스트림을 효율적으로 처리하기 위해, 전통적인 시계열 신경망 대신 그래프 신경망을 채택한 점이 가장 큰 특징이다. 인공 와우(Artificial Cochlea)는 입력 오디오를 다중 대역 필터링하고, 각 대역에서 에너지 임계값을 초과할 때마다 이벤트를 발생시켜 시간‑주파수 정보를 희소하게 표현한다. 이렇게 생성된 이벤트는 시간 축을 따라 정렬된 노드와, 인접 대역·시간 간의 연결을 나타내는 엣지로 구성된 그래프 구조로 변환된다. 그래프 컨볼루션 레이어는 인접 노드의 특성을 집계하면서도 연산량을 이벤트 수에 비례하도록 제한하므로, 메모리와 연산 비용이 크게 감소한다.
하드웨어 구현 측면에서는 SoC FPGA(예: Xilinx Zynq UltraScale+)의 프로그래머블 로직과 ARM 코어를 공동 활용한다. 그래프 컨볼루션 연산은 정수형 매트릭스‑벡터 곱으로 재구성하고, 파이프라인화된 데이터 흐름을 통해 높은 처리량을 확보한다. 양자화 단계에서는 8‑bit 정수 가중치와 16‑bit 활성화를 적용했으며, 이는 정확도 손실을 최소화하면서 DSP 사용량을 크게 줄였다. 리소스 측정 결과, LUT 22 %와 DSP 18 %만을 차지했으며, 전체 지연은 10 µs 이하로 실시간 오디오 인식에 충분한 수준이다.
성능 평가에서는 두 개의 공개 데이터셋인 SHD(Spiking Heidelberg Digits)와 SSC(Spiking Speech Commands)를 사용했다. 부동소수점 기준 모델은 SHD에서 92.7 % 정확도를 기록했으며, 이는 최신 SOTA 모델보다 2.4 % 낮지만 파라미터 수가 10배 이상, 메모리 요구량이 67배 이하인 효율성을 보여준다. SSC에서는 66.9 %~71.0 %의 정확도를 달성했으며, 이는 기존 FPGA 기반 스파이킹 신경망보다 최대 19.3 % 높은 성능을 의미한다. 특히 키워드 스포팅 실험에서는 그래프 컨볼루션 레이어와 순환 신경망(LSTM) 모듈을 결합해 단어 종료 시점을 95 % 정확도로 탐지했으며, 전력 소모는 1.18 W에 불과했다. 이러한 결과는 이벤트 기반 처리와 그래프 구조가 에너지 효율적인 엣지 AI 구현에 매우 유리함을 입증한다.
댓글 및 학술 토론
Loading comments...
의견 남기기