크리깅과 대규모 신경망의 연결 고리

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 전통적인 공간 통계 기법인 크리깅과 현대 머신러닝 모델인 대규모 신경망(MLP)의 수학적 연관성을 탐구한다. 크리깅이 가우시안 프로세스 회귀(GPR)와 동일한 MAP 추정임을 보이고, 무한히 많은 은닉 유닛을 갖는 MLP가 중앙극한정리에 의해 가우시안 프로세스로 수렴함을 증명한다. 이를 통해 각 신경망 활성화 함수에 대응하는 커널을 도출하고, 양 분야의 해석 가능성 및 확장성을 상호 보완할 수 있음을 제시한다.

상세 분석

논문은 먼저 크리깅과 가우시안 프로세스 회귀(GPR)의 수학적 동등성을 명확히 한다. 관측값 Y(x)=Z(x)+ε 에서 Z는 2차 랜덤필드, ε는 i.i.d. 잡음이며, 평균 m와 공분산 k를 갖는다. 단순 크리깅(SK) 해는 (\hat Z(x^) = m^ + k_*^\top(\Sigma+\sigma^2 I)^{-1}(Y-m)) 이며, 이는 GPR의 사후 평균(MAP)과 동일함을 증명한다. 즉, 크리깅은 GPR의 베이지안 해석을 선형 예측 관점에서 재현한다는 점을 강조한다.

다음으로 다층 퍼셉트론(MLP)과 GPR 사이의 연결 고리를 제시한다. 입력 x 에 대해 은닉층 L개의 뉴런과 활성화 함수 h(x;a) 를 갖는 MLP는 (y(x)=b_0+\sum_{j=1}^L b_j h(x;a_j)) 로 표현된다. 은닉 파라미터 a_j 를 i.i.d. 정규분포로 가정하고, 가중치 b_j 의 분산을 적절히 스케일링하면 출력은 평균이 0이고 공분산이 (\sigma_b^2 + L\sigma_b^2 \mathbb{E}

크리깅과 대규모 신경망의 연결 고리

초록

상세 분석

댓글 및 학술 토론

의견 남기기