광학 스파이킹 TD3 기반 자율주행 뉴로모픽 시스템 구현
초록
**
본 논문은 양자·전통 전자 구조의 한계를 극복하고자, DFB‑SA 레이저 어레이를 비선형 스파이킹 활성화 소자로 활용한 광학 스파이킹 TD3 강화학습 프레임워크를 제안한다. Actor 네트워크는 전광학 선형 매트릭스 연산에 적합하도록 양의 가중치와 바이어스 없이 설계되었으며, 최종 스파이킹 층만 레이저 칩에 구현한다. 시뮬레이션 및 실제 하드웨어‑소프트웨어 공동 추론 실험에서 평균 보상 58.22 ± 17.29, 성공률 80 % ± 8.3 %를 달성했으며, 추론당 에너지 0.78 nJ, 지연 191 ps라는 초저전력·초저지연 특성을 보였다.
**
상세 분석
**
이 연구는 광학 기반 뉴로모픽 컴퓨팅과 강화학습(RL)의 결합을 통해 자율주행 로봇의 실시간 의사결정 문제를 해결하고자 한다. 핵심 아이디어는 Twin‑Delayed Deep Deterministic Policy Gradient(TD3) 알고리즘을 광학 스파이킹 신경망(Photonic Spiking Neural Network, PSNN) 형태로 구현하는 것이다. 기존 전자식 von Neumann 구조는 메모리와 연산이 물리적으로 분리돼 데이터 이동 비용이 크고, 고전적인 디지털 회로는 연산 지연과 전력 소모가 크게 증가한다. 반면, 광자는 전자보다 10⁶배 빠른 전파 속도와 자연적인 병렬성을 제공하므로, 대규모 매트릭스‑벡터 연산을 광학 회로에서 직접 수행할 수 있다.
구조적 설계
- Actor 네트워크: 입력(상태) → 스파이킹 인코딩 → 다중 LIF 레이어 → 시간 평균 → Tanh 정규화 → 연속 액션(선형·각속도) 출력.
- Critic 네트워크: 전통적인 ANN 기반 2개의 Q‑네트워크(쌍둥이)로 구성, 각각 800×600×1 차원의 완전 연결 레이어를 사용해 연속적인 Q‑값을 추정한다.
- 하드웨어 제약: 광학 선형 연산 장치(예: MRR, MZI 등)는 양의 실수 가중치와 바이어스가 없는 구조에 최적화돼 있다. 따라서 Actor의 모든 선형 계층은 양의 가중치만 허용하고 바이어스를 제거했으며, 이는 DFB‑SA 레이저 어레이와 직접 매핑할 수 있게 한다.
비선형 활성화 구현
최종 스파이킹 활성화 층은 DFB(Distributed Feedback) 레이저에 포화 흡수기(Saturable Absorber)를 결합한 DFB‑SA 어레이로 구현한다. 이 장치는 전기 신호에 의해 광학 펄스를 발생시키며, 임계 전류, 적분, 불응기(refractory period) 등 뉴런과 유사한 동적 특성을 보인다. 실험적으로 레이저의 PI 곡선, 스펙트럼, SMSR(단일모드 억제비) 등을 측정해 고품질 단일모드 동작을 확인했으며, 전기‑광 변조를 통해 입력 전압 파형을 스파이크 형태로 변환했다.
하드웨어‑소프트웨어 공동 추론
1️⃣ 소프트웨어에서 TD3를 사전 학습하고, 최종 스파이킹 층을 제외한 가중치를 저장한다.
2️⃣ 저장된 가중치를 광학 매트릭스 연산 장치에 매핑하고, 입력 데이터를 광학 신호로 변환한다.
3️⃣ DFB‑SA 레이저 어레이에 입력을 주입해 비선형 스파이크 출력을 얻고, 이를 전기 신호로 복구해 소프트웨어 Critic에 전달한다.
이 과정에서 추론당 에너지 0.78 nJ, 지연 191 ps라는 기록적인 수치를 달성했으며, 오류율은 0.051 %(장애물 존재)와 0.059 %(무장애)로 매우 낮았다.
성능 평가
- 시뮬레이션: Gazebo와 ROS 기반 가상 환경에서 LiDAR 센서를 이용한 동적 장애물 회피 및 목표 지점 도달 과제를 수행. 평균 보상 58.22 ± 17.29, 성공률 80 % ± 8.3 %를 기록, 기존 전자식 TD3 대비 학습 효율이 비슷하거나 약간 우수함을 확인.
- 실험: 실제 DFB‑SA 레이저를 이용한 하드웨어‑소프트웨어 공동 추론에서 위와 동일한 보상·성공률을 재현했으며, 레이저의 스파이킹 응답이 이론적 Yamamura 모델과 완전 일치함을 입증.
의의와 한계
- 의의: 선형 연산은 광학 매트릭스‑벡터 연산에, 비선형 연산은 레이저 스파이킹에 전담시켜 완전 광학 기반 뉴로모픽 RL 시스템을 구현함으로써, 초저전력·초저지연 자율주행에 대한 새로운 길을 제시한다. 또한, 양의 가중치·바이어스 프리 설계는 현재 상용화된 광학 가중치 뱅크와 직접 호환 가능하도록 설계된 점이 실용성을 높인다.
- 한계: 현재 실험은 24×128×128 규모의 작은 매트릭스에 국한돼 있으며, 대규모 네트워크(수천~수만 뉴런)로 확장하려면 광학 라우팅 손실, 온도 안정성, 다중 파장 동기화 문제가 남아 있다. 또한, Actor에만 스파이킹을 적용하고 Critic을 전통 ANN으로 유지한 점은 전체 시스템을 완전 광학화하는 데 아직 한계가 있다.
향후 연구 방향
- 대규모 포토닉 매트릭스 연산 칩(예: 256×256 이상)과 DFB‑SA 어레이를 통합해 전체 Actor‑Critic을 전광학화.
- 온도·전압 변동에 강인한 레이저 설계와 자동 보정 회로 개발.
- 멀티파장·다중모드 레이저를 이용해 다중 채널 스파이킹 활성화를 구현, 병렬 정책 탐색 및 다중 에이전트 협업에 적용.
- 실제 로봇 플랫폼(드론, 자율주행 차량)에서 실시간 하드웨어‑소프트웨어 공동 추론을 수행해 현장 적용 가능성을 검증.
**
댓글 및 학술 토론
Loading comments...
의견 남기기