가우시안 프로세스에서 특성 학습까지: 베이지안 관점의 심층 신경망 이론
초록
본 강의노트는 베이지안 추론을 기반으로 딥 및 순환 신경망의 학습 메커니즘을 체계적으로 정리한다. 확률·모멘트·누적량, 대편차 이론 등을 도입해 파라미터가 무한히 많은 네트워크의 집합적 행동을 설명하고, 넓은 폭(large‑width) 한계에서의 신경망 가우시안 프로세스(NNGP)를 유도한다. 이후 커널 스케일링과 적응 커널 방식을 통해 “특성 학습”(feature learning)을 다루며, 라플라스‑플랑크 방정식으로 학습 동역학을 연결한다.
상세 분석
이 강의노트는 물리학적 방법론을 신경망 이론에 적용하는 전형적인 사례를 제공한다. 초반부에서 확률론의 기본 개념—확률밀도, 모멘트·누적량 생성함수, 변환법칙—을 정리하고, 특히 누적량과 모멘트 사이의 관계를 강조한다. 이는 비가우시안 분포를 다룰 때 필수적인 도구이며, 이후의 대편차 이론(Gärtner‑Ellis 정리)과 연결된다. 대편차 원리는 파라미터 수가 무한대로 갈 때 자유에너지와 엔트로피의 균형을 통해 시스템의 거시적 행동을 예측하게 해준다.
다음으로 가우시안 분포와 Wick 정리를 상세히 증명함으로써, 다변량 가우시안 적분을 효율적으로 처리하는 방법을 제시한다. 이는 신경망 폭이 무한대로 커질 때 가중치가 초기화된 가우시안 분포를 유지한다는 NNGP 가정의 수학적 근거가 된다.
선형 회귀를 베이지안 관점에서 재구성하고, 사전·사후 분포, 편향‑분산 분해를 통해 일반화 오차를 해석한다. 여기서 얻은 직관은 비선형 네트워크에도 확장 가능하며, 특히 사전이 가우시안일 때 사후가 역시 가우시안 형태를 유지한다는 점이다.
폭이 큰 심층 네트워크에 대해 필드 이론을 적용하면, 각 층의 출력이 독립적인 가우시안 필드로 수렴한다는 “네트워크 가우시안 프로세스(NNGP)” 결과를 도출한다. 다층 퍼셉트론의 경우, 층을 거치며 커널이 재귀적으로 합성되며, 이는 신경망이 “게으른 학습(lazy learning)”을 수행한다는 의미다. 즉, 파라미터는 거의 변하지 않고, 학습은 입력 공간의 커널을 재구성하는 형태로 진행된다.
순환 신경망(RNN)에도 동일한 접근을 적용해, 시간축을 따라 무한히 넓은 상태 공간을 갖는 경우에도 가우시안 필드 이론이 성립함을 보인다. 여기서는 폭이 큰 RNN이 혼돈 전이와 깊이 스케일을 보이며, 대편차 원리를 통해 안정적인 고정점과 혼돈 영역을 구분한다.
라플라스‑플랑크 방정식 파생 섹션에서는 확률적 라그랑주 방정식(Langevin dynamics)을 베이지안 사후와 연결한다. 이는 확률적 경사 하강법(SGD)의 장기 분포가 사전·우도에 의해 정의된 베이지안 사후와 일치한다는 중요한 통찰을 제공한다. 또한, 오르슈테인‑웬베르크 과정과 같은 구체적 예시를 통해 순간과 누적량이 어떻게 시간에 따라 진화하는지 보여준다.
핵심적인 “특성 학습” 파트에서는 NNGP가 레이블에 무관하다는 한계를 지적하고, 커널 스케일링(스케일 파라미터)과 적응 커널(커널 재조정) 두 가지 접근법을 제시한다. 스케일 파라미터는 훈련 데이터가 늘어날수록 커널 폭이 자동으로 확대돼, 초기 가우시안 커널이 점차 데이터에 맞게 변형된다. 적응 커널 방식은 베이지안 사후에서 커널 자체가 파라미터와 같이 업데이트되는 형태로, 비선형 깊은 네트워크에서도 특성 학습이 일어날 수 있음을 보인다. 이 두 접근법을 연결하는 최근 연구(예: “adaptive kernel”와 “kernel rescaling”)를 정리함으로써, 현재 이론적 공백을 메우는 방향을 제시한다.
전반적으로 이 노트는 베이지안 관점, 대편차 이론, 필드 이론, 라플라스‑플랑크 방정식 등 물리학적 도구들을 통합해, 딥·순환 신경망의 “lazy learning”에서 “feature learning”으로의 전이를 체계적으로 설명한다. 이는 학계와 산업계가 네트워크 설계·학습 효율성을 사전 예측하고, 샘플 복잡도와 일반화 성능을 정량화하는 데 중요한 이론적 토대를 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기