파라미터 공간 흐름은 출력 공간 선형 보간과 동등함
초록
본 논문은 딥러닝 학습에서 사용되는 표준 파라미터‑공간 그래디언트 흐름을, 출력 공간에서의 제약된 유클리드 그래디언트 흐름으로 연속적으로 변형할 수 있음을 보인다. 특히 L² 손실의 경우, 출력에 대한 야코비안이 전역적으로 전순위(full‑rank)이면 시간 변수를 재파라미터화하여 흐름이 단순히 데이터와 목표 사이의 선형 보간이 되며, 전역 최소점에 수렴한다. 교차 엔트로피 손실에 대해서도 동일한 전순위 가정과 라벨이 양성 성분을 가질 때 유일한 전역 최소점의 명시적 식을 도출한다.
상세 분석
논문은 먼저 파라미터 공간 (\theta\in\mathbb{R}^K)와 출력 공간 (\mathbf{x}(\theta)\in\mathbb{R}^{QN}) 사이의 매핑을 정의하고, 비용 함수 (C(\theta)=\sum_{i}\ell(\mathbf{x}i(\theta),y_i))에 대한 표준 그래디언트 흐름 (\dot\theta=-\nabla\theta C)를 소개한다. 체인 룰을 이용해 출력 공간에서의 흐름을 (\dot{\mathbf{x}}=-DD^{\top}\nabla_{\mathbf{x}}C) 형태로 표현한다. 여기서 (D=\partial\mathbf{x}/\partial\theta)는 야코비안이다.
핵심 아이디어는 (\dot\theta)에 적절한 프리컨디셔닝 행렬을 삽입해 (\dot\theta=- (D^{\top}D)^{+}\nabla_\theta C) 로 바꾸면 출력 공간 흐름이 (\dot{\mathbf{x}}=-\nabla_{\mathbf{x}}C) 즉, 제약 없는 유클리드 그래디언트 흐름이 된다. 이 흐름을 “적응된 그래디언트 흐름”이라 부르고, 원래 흐름과 동일한 평형점(정체점)을 공유함을 정리 2.3에서 증명한다.
특히 L² 손실 (C=\frac12|\mathbf{x}(\theta)-\mathbf{y}|^2)에 대해 야코비안이 전순위((\operatorname{rank}D=QN))이면 (\dot{\mathbf{x}}=-(\mathbf{x}-\mathbf{y})) 가 얻어지고, 해는 (\mathbf{x}(s)=\mathbf{y}+e^{-s/N}(\mathbf{x}_0-\mathbf{y})) 로 명시적으로 구한다. 시간 재파라미터화 (t=1-e^{-s/N}) 를 적용하면 (\mathbf{x}(t)=\mathbf{y}+(1-t)(\mathbf{x}0-\mathbf{y})) 로, 데이터와 목표 사이의 선형 보간이 정확히 흐름과 일치함을 보인다. 이는 전순위가 유지되는 구간에서만 성립하고, 순위 손실이 발생하면 흐름은 투영 연산 (P{\operatorname{range}(DD^{\top})}) 를 포함한 비선형 보정항을 갖는다(정리 2.6).
교차 엔트로피 손실에 대해서는 소프트맥스 (\sigma) 를 적용한 후에도 동일한 변환이 가능함을 보인다. 야코비안이 전순위이고 라벨 (\mathbf{y}) 가 양성 성분을 가질 때, 적응된 흐름은 (\dot{\mathbf{x}}=-\nabla_{\mathbf{x}}C) 를 만족하고, 정적점 조건 (\nabla_{\mathbf{x}}C=0) 으로부터 (\mathbf{x}^*=\log\mathbf{y}+c\mathbf{1}) 형태의 유일한 해를 도출한다(정리 2.8). 여기서 (c) 는 소프트맥스 정규화 상수이다.
전체적으로 논문은 야코비안의 전순위(또는 신경망의 NTK가 전순위) 가 최적화 역학을 단순화시키는 핵심 메커니즘임을 강조한다. 전순위가 깨지면 흐름은 투영된 서브스페이스 안에서만 움직이며, 이는 전역 최소점에 도달하지 못하는 원인으로 해석된다. 또한, 파라미터 공간과 출력 공간 사이의 동형 사상(동등 호모토피) 관점을 통해 기존의 비선형 최적화 문제를 선형 보간 문제로 변환하는 새로운 해석 틀을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기