예측 코딩 네트워크와 추론 학습: 최신 튜토리얼 및 종합 조사
초록
예측 코딩 네트워크(PCN)는 뇌의 계층적 베이지안 추론을 모델링한 프레임워크로, 전통적인 역전파(BP)와는 다른 생물학적 타당성을 가진 추론 학습(IL) 알고리즘을 사용한다. 최근 병렬화와 효율성 향상으로 IL이 BP보다 빠르게 학습할 수 있음이 입증되었으며, PCN은 전통적인 피드포워드 신경망(FNN)의 상위 집합으로서 지도·비지도 학습 모두를 포괄한다. 본 논문은 PCN의 수학적 정의, IL‑BP 관계, 확률적 잠재 변수 모델로서의 해석, 그리고 다양한 네트워크 구조(계층형, 그래프형, 생성형) 등을 체계적으로 정리하고, 파이토치 기반 구현(PRECO)까지 제공한다.
상세 분석
본 논문은 예측 코딩(Predictive Coding, PC) 이론을 현대 머신러닝에 적용하기 위한 두 축, 즉 학습 알고리즘과 확률 모델 관점을 동시에 제공한다. 첫 번째 축에서는 전통적인 피드포워드 신경망(FNN)의 활성화 규칙 (a^{\ell}=f(W^{\ell-1}a^{\ell-1})) 과 PCN의 활성화 규칙 (\mu^{\ell}=f(W^{\ell-1}a^{\ell-1})), (\epsilon^{\ell}=a^{\ell}-\mu^{\ell}) 을 비교한다. PCN은 각 층의 활동을 “예측”하고, 예측오차 (\epsilon^{\ell}) 를 최소화하는 에너지 (E=\frac12\sum_{\ell}|\epsilon^{\ell}|^2) 를 정의한다. 학습 단계에서는 입력 (x)와 정답 (y)를 고정(clamp)하고, 숨겨진 층의 활동을 에너지 최소화(gradient descent)로 추론(inference)한다. 이 과정이 **추론 학습(Inference Learning, IL)**이며, 활동 업데이트 식 (\Delta a^{\ell}=-\gamma\big(\epsilon^{\ell}-(W^{\ell})^{T}\epsilon^{\ell+1}\odot f’(W^{\ell}a^{\ell})\big)) 를 통해 구현된다.
두 번째 축에서는 PCN을 계층적 가우시안 잠재 변수 모델로 해석한다. 여기서 전체 네트워크는 완전 데이터 로그우도 혹은 변분 자유 에너지(Variational Free Energy)를 최적화하는 EM‑like 절차와 동등하다. 즉, 추론 단계가 E‑step, 가중치 업데이트가 M‑step에 해당한다. 이러한 관점은 PCN을 생성 모델(VAE, Diffusion Model 등)과 직접 비교하게 하며, 지도 학습에서는 예측 오류가 라벨 방향으로 흐르고, 비지도 학습에서는 데이터 방향으로 흐른다는 점을 강조한다.
논문은 또한 PC 그래프(PC Graphs) 개념을 도입해, 전통적인 계층 구조를 넘어 비계층적·이종 구조(heterarchical)까지 학습 가능함을 보인다. 이는 가중치와 예측 오류가 로컬하게만 필요하므로, 전통적인 BP가 요구하는 순차적 역전파와 달리 완전 병렬화가 가능함을 의미한다. 실제 구현에서는 GPU·TPU와 같은 대규모 병렬 하드웨어에서 깊이와 무관하게 연산 시간이 거의 일정하게 유지될 수 있음을 실험적으로 입증한다.
또한, PCN이 FNN의 상위 집합이라는 수학적 증명을 제시한다. 특정 조건(예: 예측 오류가 0인 고정점)에서 PCN의 활동은 FNN의 전방 전파와 동일해지며, 따라서 PCN은 기존 FNN이 표현할 수 있는 모든 함수를 근사한다. 반면, PCN은 예측 오류 전파와 피드백 연결을 활용해 BP가 불가능하거나 비효율적인 구조(예: 순환 그래프, 스파스 연결)도 학습한다.
마지막으로, 저자들은 PRECO라는 오픈소스 파이토치 라이브러리를 제공한다. 이 라이브러리는 기본적인 차별적 PCN, 생성형 PCN, 그리고 임의 그래프 형태의 PCN을 손쉽게 구축·학습·평가할 수 있게 설계되었으며, 실험 재현성을 크게 향상시킨다. 전체적으로 논문은 PCN을 신경과학적 타당성, 계산 효율성, 모델 범용성 세 축에서 기존 딥러닝 패러다임과 차별화시키며, 향후 NeuroAI 연구의 핵심 플랫폼으로 자리매김할 가능성을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기