제로오더 최적화와 신경탄젠트 커널의 새로운 연결

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 제로오더(Zero‑Order) 최적화의 학습 동역학을 이해하기 위해 Neural Zeroth‑order Kernel(NZK)를 정의하고, 선형 모델 및 선형화된 신경망에 대해 기대 NZK가 시간에 따라 불변함을 증명한다. 기대 NZK는 무작위 탐색 방향의 1차·2차 모멘트에 의해 명시적으로 결정되며, 이를 이용해 제곱 손실 하에서 모델 진화를 닫힌 형태로 기술한다. 또한 동일한 무작위 벡터를 공유하면 NZK가 스케일링되어 수렴 속도가 가속됨을 이론과 실험으로 확인한다.

상세 분석

본 연구는 기존 NTK 이론이 전제하는 정확한 1차 미분 정보가 없는 상황, 즉 제로오더 최적화에서의 학습 과정을 함수 공간 관점에서 해석하려는 시도이다. 핵심 아이디어는 파라미터 업데이트에 사용되는 무작위 탐색 벡터 z와, 파라미터 변화율을 근사하는 차분 벡터 ζ를 각각 독립 혹은 동일하게 샘플링하고, 이들로 구성된 커널
(K_{\zeta ,z}(x_i,x_j)=\big\langle\frac{f(x_i;\theta+\epsilon\zeta)-f(x_i;\theta-\epsilon\zeta)}{2\epsilon\zeta}, \frac{f(x_j;\theta+\epsilon z)-f(x_j;\theta-\epsilon z)}{2\epsilon z}\big\rangle)
를 정의한다.

정리 1에서는 선형 모델 (f(x;\theta)=\langle\theta,x\rangle)에 대해 무작위 벡터가 가우시안 (N(\mu,\sigma^2 I)) 분포를 따를 때, 기대 NZK가
(\mathbb{E}

제로오더 최적화와 신경탄젠트 커널의 새로운 연결

초록

상세 분석

댓글 및 학술 토론

의견 남기기