아날로그 신경망의 저장소 크기에 따른 학습 스케일링

본 논문은 아날로그 광학 신경망에서 저장소(Reservoir) 크기가 학습 수렴 속도와 예측 성능에 미치는 영향을 체계적으로 조사한다. 연구팀은 기존의 전자‑광학 혼합 방식이 갖는 병렬화 한계를 극복하고자, 공간광변조기(SLM)와 디지털 마이크로미러 디스플레이(DMD)를 이용해 뉴런 상태와 읽기 가중치를 완전 광학적으로 구현하였다. SLM에 인코딩된 뉴런 전압은 레이저 빔을 통해 회절 광학 소자(DOE)를 거쳐 카메라에 투사되고, 카메라에서 얻은 이미지가 다시 SLM에 피드백되어 재귀 연결을 형성한다. 이 과정에서 회절 결합은 자연스럽게 모든 뉴런 간의 전역 연결을 병렬적으로 제공한다. 학습은 부울(Boolean) 가중치만을 허용하는 그리디 알고리즘으로 수행된다. 초기에는 모든 가중치를 0으로 설정하고, 각 에폭마다 무작위로 선택된 가중치를 토글한다. 토글된 가중치가 오차를 감소시키면 유지하고, 그렇지 않으면 원래 상태로 복구한다. 또한, 아직 테스트되지 않은 가중치를 우선적으로 선택하도록 바이어스 벡터(W_bias)를 점진적으로 증가시켜, 전체 N개의 가중치를 순차적으로 탐색하도록 설계하였다. 이 방식은 전통적인 경사 하강법에 비해 연산 복잡도가 매우 낮으며, 하드웨어 구현이 간단한 장점을 가진다. 실험에서는 맥클락‑글래스(Mackey‑Glass) 혼돈 시계열을 1‑step ahead 예측 과제로 사용하였다. 961개의 뉴런을 갖는 최대 규모 시스템에서 20번의 독립 학습을 수행했으며, 각 실험은 동일한 초기 가중치 구성을 갖도록 초기화하였다. 학습 과정에서 평균 NMSE는 약 14 × 10⁻³까지 감소했고, 테스트 데이터에서도 15 × 10⁻³ 수준의 오류를 유지해 과적합이 없음을 확인했다. 학습 곡선은 초기 단계에서 큰 변동성을 보였지만, 평균적으로 지수적 감소를 보이며 약 950번째 에폭에서 최소점에 도달한다. 오차 지형의 기울기를 분석한 결과, 양의 기울기와 음의 기울기가 모두 지수적으로 감소하지만, 최소점에 도달한 직후 양의 기울기가 급격히 상승하고 음의 기울기는 노이즈 수준 이하로 떨어지는 현상이 관찰되었다. 이는 최적점 주변에서 탐색이 거의 멈추고, 이미 최적화된 차원들이 다시 토글될 확률이 1/N에 비례해 증가함을 의미한다. 따라서 학습이 진행될수록 새로운 차원을 탐색하는 비율이 감소하고, 기존 차원의 재조정이 성능 저하를 일으키는 역동적 구조가 형성된다. 가장 주목할 만한 결과는 학습에 필요한 에폭 수가 뉴런 수 N에 대해 거의 선형적으로 증가한다는 점이다. 9개의 뉴런을 사용한 경우 약 100에폭, 961개의 뉴런을 사용한 경우 약 960에폭이 소요되었으며, 로그‑스케일에서의 선형 회귀 기울기는 1.08로 거의 1에 가까웠다. 동시에, 뉴런 수가 증가할수록 예측 정확도도 향상되어, 9개의 뉴런 시스템이 961개의 뉴런 시스템에 비해 약 50배 높은 오류를 보였다. 이는 회절 결합이 제공하는 완전 병렬성 덕분에 시스템 규모가 커져도 학습 시간·자원 소모가 비례적으로 증가한다는 것을 의미한다. 결론적으로, 본 연구는 (1) 부울 가중치와 그리디 탐색을 이용한 학습이 하드웨어 구현이 간단하면서도 수렴성을 보장한다는 점, (2) 저장소 크기가 증가해도 학습 에폭 수가 선형적으로 증가하므로 대규모 광학 신경망의 확장성이 뛰어나다는 점을 입증한다. 향후 연구에서는 다중 비트 가중치, 비선형 회절 구조, 그리고 실시간 센서 데이터와 같은 다양한 입력에 대한 일반화 성능을 검증함으로써, 광학 기반 아날로그 신경망의 실용성을 더욱 확대할 수 있을 것으로 기대된다.

아날로그 신경망의 저장소 크기에 따른 학습 스케일링

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기