베이즈 신경망의 대편차와 특징 학습 고정 커널을 넘어
초록
이 논문은 넓은 베이즈 신경망에서 가우시안 프로세스 한계를 넘어서는 희귀하지만 지배적인 변동을 대편차 이론으로 분석한다. 저자들은 예측기와 내부 커널을 동시에 최적화하는 새로운 변분 목표함수(레이트 함수)를 제시하고, 이를 통해 기능 수준에서 복잡도와 특징 학습을 정의한다. 실험 결과는 중간 규모 네트워크의 비가우시안 꼬리, 사후 분포 변형, 데이터 의존적 커널 선택 효과를 정확히 포착한다.
상세 분석
본 연구는 기존의 넓은 신경망이 무한 폭으로 갈 때 가우시안 프로세스(NNGP)로 수렴한다는 사실에 머물지 않고, 실제 유한 폭에서 발생하는 비정규적 현상을 정량화하려는 시도이다. 이를 위해 저자들은 대편차 이론(Large‑Deviation Theory)을 도입하여 사후 분포의 확률 질량이 급격히 감소하는 영역을 레이트 함수(rate function)라는 형태로 명시한다. 중요한 점은 이 레이트 함수가 단순히 고정된 커널에 대한 함수가 아니라, 예측 함수와 내부 커널(즉, 층별 공분산 구조)을 동시에 최적화하는 이중 변분 문제로 표현된다는 것이다. 수학적으로는 사후 확률 (p(f|D))의 로그 확률을 (-\frac{1}{\epsilon} I(f,\kappa)+o(1/\epsilon)) 형태로 전개하고, 여기서 (\epsilon)은 폭의 역수, (I)는 KL‑유사 레이트 함수이며 (\kappa)는 데이터에 의해 적응되는 커널이다. 이 구조는 기존 NNGP가 고정된 커널을 가정하고 평균‑제곱 오차만 최소화하는 것과는 근본적으로 다르다.
또한 저자들은 레이트 함수를 최소화하는 최적화 과정이 실제 학습 과정에서 특징 학습(feature learning)과 동일시될 수 있음을 보인다. 즉, 네트워크가 데이터에 맞춰 내부 커널을 변형시키는 메커니즘이 대편차 관점에서 최적의 레이트 함수를 찾는 과정과 일치한다는 점이다. 이를 통해 “복잡도”라는 새로운 개념을 함수 공간 수준에서 정의하고, 복잡도가 낮은(레이트 함수 값이 작은) 예측기가 사후 분포에서 지배적인 역할을 한다는 직관을 제공한다.
실험에서는 2‑계층 ReLU 네트워크와 3‑계층 tanh 네트워크를 대상으로, 폭이 50~200인 경우에 레이트 함수 기반 예측이 실제 베이즈 사후와 매우 높은 일치도를 보임을 확인했다. 특히 비가우시안 꼬리(예: 아웃라이어 입력에 대한 예측)의 존재, 사후 평균이 데이터에 따라 비선형적으로 변형되는 현상, 그리고 데이터가 특정 입력 영역에 집중될 때 커널이 그 영역에 더 큰 폭을 할당하는 현상이 재현되었다. 이러한 결과는 기존 NNGP가 포착하지 못하는 “데이터 의존적 커널 선택” 메커니즘을 명확히 드러낸다.
결론적으로, 이 논문은 베이즈 신경망의 사후 분석을 단순한 가우시안 근사에서 벗어나, 대편차 이론을 통한 함수‑레벨 최적화 문제로 확장함으로써, 특징 학습과 복잡도 조절을 이론적으로 정량화한다는 점에서 중요한 기여를 한다.
댓글 및 학술 토론
Loading comments...
의견 남기기