생애주기 신경예측코딩: 잊지 않고 지속 학습하는 새로운 네트워크
초록
본 논문은 순차적 신경코딩 네트워크(S‑NCN)를 제안한다. 예측코딩 원리를 기반으로 로컬 Hebbian 학습과 층간 경쟁 메커니즘을 도입해, 백프로파게이션 없이 스트림 데이터에서 연속적으로 학습하면서도 기존 과제에 대한 기억 손실을 크게 억제한다. 실험에서는 SplitMNIST·SplitFashionMNIST 등에서 기존 재현·정규화 기법을 능가하는 성능을 보였다.
상세 분석
S‑NCN은 전통적인 피드포워드 ANN과 달리 각 층을 “예측자”와 “오차 유닛”으로 쌍을 이루게 설계하였다. 입력‑출력은 (x, y) 형태로 동시에 클램프될 수 있으며, 층 ℓ은 아래 층 ℓ‑1의 상태 z₍ℓ‑1₎를 예측(ẑ₍ℓ‑1₎)하고, 실제 상태와의 차이를 오차 e₍ℓ‑1₎로 계산한다. 이 오차는 상향 피드백 가중치 E₍ℓ₎에 의해 상위 층으로 전달돼, 각 층의 내부 상태 z₍ℓ₎를 d₍ℓ₎ = −e₍ℓ₎ + E₍ℓ₎·e₍ℓ‑1₎ 로 보정한다. 보정된 상태는 β 라는 스케일링 파라미터와 함께 비선형 함수 f₍ℓ₎에 입력되며, 여기서 핵심은 K‑winner‑take‑all (K‑WTA) 형태의 경쟁 메커니즘이다. K‑WTA는 현재 과제에 대응하는 컨텍스트 벡터 g₍ℓ₎ᵗ에 의해 활성화된 유닛만을 선택해 희소 코드를 형성한다. 이는 실제 뇌에서 관찰되는 억제·경쟁 현상을 모방한 것으로, 과제별 표현을 분리해 기억 간 간섭을 최소화한다는 이론적 근거가 있다.
학습 단계에서는 K번의 예측‑보정 사이클을 수행한 뒤, Hebbian‑유사 규칙 ΔW₍ℓ₎ = e₍ℓ₎·φ₍ℓ₎(z₍ℓ₊₁₎)ᵀ·S₍ℓ₎와 ΔE₍ℓ₎ = γ·d₍ℓ₎·e₍ℓ₎ᵀ·S₍ℓ₎ 를 사용해 가중치를 업데이트한다. 여기서 S₍ℓ₎는 가중치 정규화(예: L2 정규화) 역할을 하며, γ 는 피드백 가중치의 학습 속도를 조절한다. 중요한 점은 이 모든 연산이 로컬(각 시냅스와 유닛 수준)에서 이루어지므로, 전통적인 역전파와 달리 전체 네트워크를 역전파할 필요가 없다는 것이다.
또한, 과제 선택기(task selector)는 베이시안·강화학습 아이디어를 차용해 현재 입력에 가장 적합한 g₍ℓ₎ᵗ 를 선택한다. 논문에서는 이를 ‘기저핵(basal ganglia)’의 역할에 비유했으며, 실제 구현에서는 간단한 메타‑네트워크가 t (과제 라벨)와 현재 상태를 입력받아 g 를 출력한다. 이 메커니즘 덕분에 새로운 과제가 등장할 때마다 전체 네트워크를 재설계하지 않고, 기존 가중치는 그대로 유지하면서 컨텍스트 벡터만 추가·업데이트한다.
실험 결과는 두 가지 축에서 의미 있다. 첫째, S‑NCN은 재현(buffer) 기반 방법(예: iCaRL, GEM)과 정규화 기반 방법(예: EWC, SI)보다 평균 정확도가 3~7%p 높았다. 특히 클래스‑증분(Class‑IL) 설정에서 ‘Task‑Free’ 환경에서도 기존 방법보다 적은 정확도 저하를 보였다. 둘째, 메모리 사용량이 거의 0에 가깝고, 연산 복잡도는 O(K·L·N) (여기서 L은 층 수, N은 뉴런 수) 수준으로, 배치 학습에 비해 메모리 효율성이 뛰어나다.
하지만 몇 가지 한계도 존재한다. 첫째, 현재 구현은 과제 라벨 t 를 입력으로 받아 컨텍스트 매트릭스 M 을 확장하는 방식이라, 완전한 ‘task‑free’ 시나리오에서는 라벨이 필요하다. 논문에서는 이를 추후 메타‑네트워크가 자동 추론하도록 제안했지만, 실제 실험에서는 라벨이 제공된 전제이다. 둘째, K‑WTA 경쟁을 위한 하이퍼파라미터 K 와 사이클 수 K 가 성능에 크게 영향을 미치며, 데이터셋마다 별도 튜닝이 필요하다. 셋째, 현재는 이미지 분류( MNIST 계열) 위주로 평가했으며, 시계열·언어·강화학습 등 다른 도메인에 대한 일반화 가능성은 검증되지 않았다. 마지막으로, 로컬 학습 규칙이 수렴성을 보장하는 이론적 분석이 부족해, 최악의 경우 발산하거나 과도한 희소성이 발생할 위험이 있다.
종합하면, S‑NCN은 예측코딩과 로컬 학습을 결합해 ‘백프로파게이션 없는 지속 학습’이라는 새로운 패러다임을 제시한다. 생물학적 근거와 실험적 우수성을 동시에 갖추었지만, 실제 적용을 위해서는 과제 라벨 의존성 해소, 하이퍼파라미터 자동 튜닝, 다양한 도메인 확장 등에 대한 추가 연구가 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기