이벤트 비전 기반 효율적인 얼굴 표정 인식 CS3D

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 고속 이벤트 카메라의 장점을 활용하여 얼굴 표정 인식을 수행하는 CS3D 프레임워크를 제안한다. 3D 컨볼루션을 팩터화하고 소프트 스파이킹 뉴런과 시공간 공동 어텐션을 결합함으로써 연산량과 에너지 소비를 크게 줄이면서도 기존 RNN·Transformer·C3D 대비 높은 정확도를 달성한다.

상세 분석

CS3D는 기존 3D CNN(C3D)의 연산 복잡성을 완화하기 위해 두 단계의 팩터화 3D 컨볼루션을 도입한다. 첫 번째는 시간 축(3×1×1)으로, 두 번째는 공간 축(1×3×3)으로 분해함으로써 파라미터 수와 FLOPs를 현저히 감소시킨다. 이와 동시에 깊이별 컨볼루션(DWConv)과 포인트와이즈 컨볼루션(PWConv)을 조합해 채널 간 정보 융합을 유지한다.

핵심 혁신 중 하나는 Soft Spiking Neuron(SSN)이다. 전통적인 스파이킹 뉴런은 이진 스파이크와 경계값(threshold)으로 인해 역전파 시 그래디언트 소실 문제가 발생하지만, SSN은 소프트-쓰레시홀딩을 통해 ReLU와 유사한 연속 출력을 제공하고, 역전파 시 시그모이드 서프라이즈 그래디언트를 사용해 부드러운 미분 가능성을 확보한다. 이는 이벤트 스트림의 미세한 밝기 변화를 연속적인 특성으로 보존하면서도 SNN의 생물학적 해석 가능성을 유지한다.

시공간 공동 어텐션 모듈은 Temporal Attention(TA)과 Spatial Attention(SA)을 순차적으로 적용한다. TA는 각 프레임의 중요도를 시간 축에서 평균·최대 풀링을 통해 추출한 특징에 공유 컨볼루션을 적용해 가중치를 계산하고, residual 연결을 통해 원본 특성을 보강한다. SA는 채널 차원에서 평균·최대 풀링을 수행한 뒤 2채널 텐서를 재구성해 공간적 어텐션 맵을 생성한다. 두 어텐션을 결합한 최종 맵은 residual 연결을 거쳐 입력에 더해짐으로써 중요한 시공간 영역을 강조하고 불필요한 노이즈를 억제한다.

데이터 전처리 단계에서는 기존 FER 비디오 데이터셋(ADFES, CASME II, SZU‑EmoDage)을 V2E 변환기로 이벤트 스트림으로 변환한다. 얼굴 랜드마크 기반 정규화·회전·그레이스케일 변환 후 112×112 해상도로 리사이즈하여 입력 차원을 통일한다.

실험 결과는 세 가지 측면에서 평가된다. 첫째, 정확도 측면에서 CS3D는 RNN, Transformer, 기존 C3D 대비 평균 2~3%p 향상을 보이며, 특히 저조도 환경에서 이벤트 카메라의 강점을 살려 성능 저하가 최소화된다. 둘째, FLOPs와 파라미터 수는 기존 C3D 대비 약 70% 감소했으며, THOP 기반 에너지 측정에서는 동일 디바이스에서 21.97% 수준의 전력 소모만을 기록한다. 셋째, 다양한 엣지 디바이스(NVIDIA Jetson Nano, Raspberry Pi 4)에서 실시간 추론이 가능함을 입증한다.

전체적으로 CS3D는 이벤트 비전의 고속·저전력 특성을 딥러닝 구조에 효율적으로 매핑함으로써 서비스 로봇과 같은 엣지 컴퓨팅 환경에서 실시간 FER을 구현할 수 있는 실용적인 솔루션을 제공한다.

이벤트 비전 기반 효율적인 얼굴 표정 인식 CS3D

초록

상세 분석

댓글 및 학술 토론

의견 남기기