본 논문에서는 $n$개의 레이블을 갖는 감독 학습을 고려하고 잔차 네트워크에서 계층별 SGD가 효율적으로 특정 계층 모델을 학습할 수 있음을 보여줍니다. 이 모델 클래스는 알려지지 않은 레이블 계층 $L_1 \subseteq L_2 \subseteq \dots \subseteq L_r = [n]$의 존재를 가정합니다. 여기서 $L_1$에 속한 레이블들은 입력의 간단한 함수이며, $i > 1$인 경우 $L_i$에 속한 레이블들은 더 간단한 레이블들의 간단한 함수입니다. 이러한 클래스는 깊은 학습 알고리즘으로 학습할 수 있음이 이전에 입증된 모델들보다 더 넓은 범위를 포함하며, 효율적인 학습 가능성을 도달하는 깊이 한계를 설정합니다. 즉, 해당 클래스에는 다항식 깊이가 필요한 표현을 요구하는 모델들이 있으며 이전의 모델들은 로그 깊이 회로에서 계산될 수 있습니다. 또한 이러한 계층 모델들의 학습 가능성은 깊은 학습을 이해하기 위한 기반으로 될 수 있음을 제안합니다. 깊은 학습이 뛰어난 성능을 보이는 도메인에서의 자연스러운 적합성뿐만 아니라 인간 '교사'의 존재는 계층 구조가 본질적으로 가능하다는 가설을 지지한다고 주장합니다. 교사는 세밀한 레이블을 제공함으로써 두뇌가 사용하는 내부 알고리즘의 '힌트' 또는 '스니펫'을 드러내는데 효과적입니다. 이 직관성을 형식화하여 교사가 부분적으로 자신의 내부 논리를 인식하는 간략한 모델에서 계층 구조가 효율적인 학습 가능성을 촉진시키는 방식으로 나타남을 보여줍니다.
1. **계층적 모델 학습 가능성 증명**: 이 논문은 깊이 있는 신경망 알고리즘, 특히 잔차 네트워크에서 계층적 모델을 학습할 수 있음을 입증한다. 이를 통해 딥러닝의 성공 원리를 더 잘 이해할 수 있다.
2. **사람 뇌와 유사한 계층 구조**: 컴퓨터 비전이나 자연어 처리 등 다양한 분야에서 복잡한 개념이 단계적으로 학습되는 방식은 사람 뇌의 작동 방식과 매우 유사하다는 점을 발견했다.
3. **인터넷으로부터의 데이터 활용**: 인터넷에 게시된 다량의 라벨 정보를 통해 딥러닝 모델이 복잡한 개념을 학습하는 과정에서 중간 단계로 활용할 수 있는 '힌트'를 제공받는다.
# 서론
딥러닝 이론의 중심 목표는 경사하강 알고리즘이 충분히 복잡한 모델을 효율적으로 학습할 수 있음을 보이는 것이다. 이러한 노력은 십여 년 전부터 시작되었으며, 딥러닝의 실용적인 성공과 일치한다. 초기 이론적 결과는 딥러닝 알고리즘이 선형 모델을 학습할 수 있음을 증명했고, 그 후 간단한 비선형 모델에 대한 증명이 이루어졌다.
이는 놀라운 성취이며, 최근까지도 딥러닝 알고리즘으로 입증 가능한 학습이 가능한 모델은 없었다는 점을 고려할 때 더욱 그렇다. 또한 이전에는 신경망의 능력에 대한 심각한 제약을 보여주는 어려움 결과로 인해 이 분야가 지배당했다. 그러나 이러한 진전에도 불구하고, 선형 또는 간단한 비선형 모델을 학습하는 것은 딥러닝의 실용적 성공을 설명하기에는 부족하다.
이 논문에서는 계층적 모델을 입증적으로 학습할 수 있음을 보여줌으로써 이 연구를 진전시킨다. 특히 계층별 SGD 알고리즘과 잔차 네트워크를 사용하여 이를 입증한다. 우리는 $n$개의 가능한 라벨이 있는 감독학습 설정을 고려하고, 각 예제는 이러한 라벨 중 일부와 연결되어 있다고 가정한다. $\mathbf{f}^* \colon \mathcal{X} \to \{\pm 1\}^n$를 진짜 라벨링 함수라고 하자. 우리는 다음과 같은 알려지지 않은 라벨 계층 $L_1 \subseteq L_2 \subseteq \dots \subseteq L_r = [n]$을 가정한다: $L_1$의 라벨은 입력에 대한 간단한 함수(특히 다항식 임계값)이며, $i > 1$인 경우 $L_i$의 어떤 라벨도 더 간단한 라벨(즉, $L_{i-1}$의 라벨들)에 대한 간단한 함수이다.
우리는 계층적 모델을 학습할 수 있다는 것이 딥러닝 이해를 위한 강력한 근거가 될 수 있음을 제안한다. 첫째, 계층적 모델은 신경망이 뛰어나는 도메인에서 자연스럽다. 예를 들어 컴퓨터 비전에서는 첫 번째 단계의 라벨이 “이 픽셀은 빨강이다"일 수 있다(즉, 입력 자체); 두 번째 단계 라벨은 “곡선” 또는 “어두운 영역"일 수 있고 세 번째 단계 라벨은 “잎"이나 “사각형"일 수 있다. 텍스트 및 음성 처리에서도 유사한 계층이 존재한다. 실제로 이러한 계층 구조는 성공적인 아키텍처인 합성곱 및 잔차 네트워크 개발을 촉구했다.
둘째, 사람 “교사"의 존재 자체가 계층적 라벨링이 존재하고 알고리즘에 제공될 수 있다는 가설을 지지한다고 주장할 수도 있다. 이미지에서 차량 인식 문제를 고려해보자. 초기 AI 접근 방식(1970년대~80년대)은 인간의 뇌가 사용하는 사고 알고리즘을 수동으로 정형화하려는 시도로 실패했다. 이는 입력-출력 쌍을 기반으로 함수를 근사하는 머신러닝에 의해 대체되었다. 데이터 주도 접근 방식은 인간 성능을 능가했지만, 그 성공의 표준적인 해석이 약간 오해의 소지가 있다.
우리는 최근의 진전이 “아무것도 모르는 상태에서 학습” 때문만은 아니며, 다수의 미세한 라벨이 포함된 데이터셋에 모델을 훈련시키기 때문에 가능하다고 제안한다. 이러한 라벨들은 명시적인 프로그래밍과 순수한 입력-출력 학습 사이의 중간 지점이며 복잡한 개념을 학습하기 위한 ‘힌트’ 또는 중간 단계로 작용한다. 우리는 뇌의 내부 알고리즘에 대한 완전한 접근 권한이 없지만, 창문, 휠, 기하학적 형태와 같은 하위 수준 특징을 식별함으로써 작업을 계층적으로 분해할 수 있다.
더 큰 규모에서 보면 다음 관점을 LLM의 생성에 대해 고려할 수 있다. 1990년대부터 현재까지 인류는 인터넷(웹사이트, 포럼, 이미지, 비디오 등)을 만들었다. 부수적으로 인류는 광범위한 라벨과 예제를 제공했다. 이러한 라벨이 매우 단순한 것에서 복잡한 것까지 다수 있으므로 계층 구조를 가지기 쉽다. 인터넷의 창설 이후, 엄청난 규모의 모델들이 이러한 예제에 대해 훈련되었으며 이 구조(뿐만 아니라 대량의 데이터와 컴퓨팅 파워) 덕분에 성공했다. 일종으로 보면, 인터넷과 현대 LLM의 진화는 모든 관심 있는 라벨이 실제로 회로의 일부 및 간단한 함수인 큰 규모의 집합적 노력이라고 볼 수 있다.
우리는 이러한 직관을 단순화된 형태로 공식화한다. 우리는 인간 뇌를 계산 회로로 모델링하고 각 라벨(즉, “뇌 조각”)이 뇌의 일부 신경세포에 대한 다수 투표로 표현된다 가정한다. 이러한 라벨들이 미세하면서도 다양하다는 공식화를 위해 각 라벨을 정의하는 특정 신경세포 집합은 학습 과정 전에 무작위로 선택되었다고 가정한다. 우리는 이것이 잔차 네트워크에 의해 효율적으로 학습 가능한 계층 구조를 제공함을 보인다. 중요한 점은 잔차 네트워크 아키텍처나 훈련 알고리즘이 이러한 기본 라벨 계층에 대한 지식에 의존하지 않는다는 것이다.
마지막으로, 우리는 계층적 모델이 이전에 입증적으로 학습 가능한 것으로 보여진 모델들보다 우월하다는 것을 언급한다. 우리가 아는 한, 이전 결과들은 로그 깊이 회로를 통해 실현될 수 있는 모델에 제한적이었다. 반면에 계층적 모델은 효율적인 학습의 깊이 제한을 달성한다. 어떤 다항식 크기의 회로라도, 우리는 SGD를 사용하여 잔차 네트워크에서 학습 가능한 해당 계층적 모델을 구성할 수 있으며, 이는 그 중 하나의 라벨로서 회로를 계산하게 된다.
관련 연구
선형 또는 고정된 표현 모델은 일반적으로 비선형(비록 고정되더라도) 특징 매핑에 따른 학습 가능한 선형 매핑을 포함한다. 이에는 커널 방법, 무작위 특징 등이 포함된다. 지난 10년 동안 여러 논문들이 신경망이 다양한 선형 모델을 입증적으로 학습할 수 있음을 보여주었다. 몇몇 연구들은 고정된 표현을 넘어서는 모델 클래스를 고려하되, 여전히 경사하강 방법에 의해 효율적으로 학습 가능하다. 일부 작업은 비균일 분포 아래에서의 패리티 학습 가능성 또는 신경망 깊이 두 개로 직접 표현될 수 있는 다른 모델을 보여준다. 우리의 접근 방식과 더 가까운 연구들은 특정 계층적 모델을 고려한다. 위에서 언급했듯, 우리는 이 작업이 현실을 포착할 수 있는 모델로의 또 다른 단계라고 믿는다. 형식적인 관점에서는 우리가 고려하는 모델들이 임의적으로 깊게 될 수 있다는 점에서 이전 연구보다 더 나아갔음을 보인다. 사실, 언급된 모든 논문들은 로그 깊이 네트워크로 실현될 수 있는 모델을 고려한다. 실제로 순열 구성만 고려하는 경우를 제외하고는 깊이 두 개가 위에서 언급한 모든 모델을 표현하기에 충분하다.
또 다른 관련 연구 방향은 딥러닝의 성공이 계층 구조 때문이라는 주장이다. 이 시리즈의 논문들은 효율적으로 학습 가능한 계층적 모델을 제공하나, 깊은 아키텍처가 필요하다는 가설을 제시한다. 추가적인 연구를 통해 계층성이 딥러닝에 필수적임을 주장하는 노력들이 있다.
표기법 및 사전 지식
우리는 볼드 글씨로 벡터를 표현(예: $\mathbf{x} ,\mathbf{y},\mathbf{z},\mathbf{w},\mathbf{v}$)하고, 그 좌표는 일반적인 문자로 표기한다. 예를 들어 $x_i$는 $\mathbf{x}$의 $i$번째 좌표를 나타낸다. 마찬가지로 벡터 값 함수와 다항식(즉, 범위가 $\mathbb{R}^d$인 것)을 볼드 글씨로 표기한다(예: $\mathbf{f},\mathbf{g},\mathbf{h},\mathbf{p},\mathbf{q},\mathbf{r}$), 그리고 그 $i$번째 좌표는 일반적인 문자로 표현한다. 우리는 브로드캐스팅 연산을 자유롭게 사용할 것이다. 예를 들어 $\vec\mathbf{x} = (\mathbf{x} _1,\ldots,\mathbf{x} _n)$은 $n$개의 $\mathbb{R}^d$ 벡터 시퀀스이고, $g$는 $\mathbb{R}^d$에서 일부 집합 $Y$로 매핑되는 함수라면, $g(\vec\mathbf{x})$는 시퀀스 $(g(\mathbf{x}_1),\ldots,g(\mathbf{x}_n))$를 나타낸다. 마찬가지로 행렬 $A \in M_{q,d}$에 대해 $A\vec\mathbf{x} = (A\mathbf{x} _1,\ldots,A\mathbf{x} _n)$을 표기한다.
다항식 $p:\mathbb{R}^n\to\mathbb{R}$의 경우, 우리는 $p$의 계수 벡터의 유클리드 노름을 $\|p\|_{\mathrm{co}}$로 표기하고 이를 $p$의 계수 노름이라고 부른다. 또한 $\sigma:\mathbb{R}\to\mathbb{R}$에 대해, 우리는 $\|\sigma\| = \sqrt{\mathbb{E}_{X\sim{\cal N}(0,1)}[\sigma^2(X)]}$를 표준 가우시안 측도에 대한 $L^2$ 노름으로 정의한다. 행렬 $A \in M_{n,m}$의 프로베니우스 노름은 $\|A\|_F = \sqrt{\sum_{i,j}A^2_{ij}}$, 그리고 스펙트럼 노름은 $\|A\| = \max_{\|\mathbf{x}\|=1}\|A\mathbf{x}\|$로 정의한다.
우리는 $n$개의 $\mathbb{R}^d$ 벡터 시퀀스를 나타내는 공간을 $\mathbb{R}^{d,n}$으로 표기한다. 더 일반적으로 집합 $G$에 대해, 우리는 $\mathbb{R}^{d,G} = \{\vec\mathbf{x} = (\mathbf{x} _g)_{g\in G} : \forall g\in G,\; \mathbf{x} _g\in\mathbb{R}^d\}$로 정의한다. 우리는 유클리드 단위 볼을 $\mathbb{B}^d = \{\mathbf{x}\in\mathbb{R}^d : \|\mathbf{x}\|\le 1\}$으로 표기하고, 벡터와 행렬의 원소별(하다마르) 곱셈은 $\odot$로, 그리고 벡터 연결은 $(\mathbf{x} |\mathbf{y})$로 표기한다. $n$ 차원에서 $\mathbf{x}$를 고려하고 $A \subseteq [n]$와 $\sigma \in \mathbb{Z}^n$에 대해 우리는 다중 색인 기호 $x^{A} = \prod_{i\in A} x_i$와 $x^{\sigma} = \prod_{i=1}^n x_i^{\sigma_i}$를 사용한다. 또한 $\mathbf{f}:{\cal X}\to \mathbb{R}^n$과 $L\subseteq[n]$에 대해 우리는 $\mathbf{f}_L:{\cal X}\to \mathbb{R}^{|I|}$의 제한을 $\mathbf{f}_L=(f_{i_1},\ldots,f_{i_k})$, 여기서 $L=\{i_1,\ldots,i_k\}$와 $i_1<\ldots
다항식 임계 함수
집합 ${\cal X}\subseteq[-1,1]^d$, 함수 $f:{\cal X}\to \{\pm 1\}$, 양의 정수 $K$, 그리고 $M>0$를 고정한다. 만약 차수가 $K$ 이하인 다항식 $p:\mathbb{R}^d\to\mathbb{R}$가 존재하여 $\|p\|_\mathrm{co}\le M$이고, 모든 $\mathbf{x} \in {\cal X}$에 대해 $p(\mathbf{x})f(\mathbf{x})\ge 1$이면, $f$는 $(K,M)$-PTF라고 말한다. 더 일반적으로, 만약 차수가 $K$ 이하인 다항식 $p:\mathbb{R}^s\to\mathbb{R}$가 존재하여 $\|p\|_\mathrm{co}\le M$이고 모든 $\mathbf{x} \in {\cal X}$에 대해 $p(\mathbf{h}(\mathbf{x}))f(\mathbf{x})\ge 1$이면, $f$는 $(K,M)$-PTF of $\mathbf{h}:{\cal X}\to\mathbb{R}^s$라고 말한다. 자주 사용되는 예로는 함수 $f:\{\pm 1\}^d\to\{\pm 1\}$이 $K$ 개의 변수에 의존하는 경우가 있다. 실제로, $\{\pm 1\}^d$에서의 푸리에 분석은 $f$가 차수가 $K$ 이하인 다항식 $p$의 제한이며 $\|p\|_\mathrm{co}=1$임을 보여준다. 이러한 다항식에 대해 모든 $\mathbf{x} \in {\cal X}$에 대해 $p(\mathbf{x})f(\mathbf{x})= 1$이다.
또한 우리가 필요로 하는 더 세부적인 PTF 정의도 있다. 여기서는 두 가지 방향 부등식 $B\ge p(\mathbf{x})f(\mathbf{x})\ge 1$, 그리고 $\mathbf{x}$에 대한 편차에 대한 몇 가지 견고성을 요구한다. 이를 위해, $\mathbf{x} \in [-1,1]^d$와 $r>0$에 대해 다음과 같이 정의한다:
{\cal B}_r(\mathbf{x}) = \left\{\tilde \mathbf{x} \in [-1,1]^d : \|\mathbf{x} -\tilde\mathbf{x}\|_\infty\le r \right\}
$B\ge 1$, $1\ge \xi>0$를 고정한다. 만약 차수가 $K$ 이하인 다항식 $p:\mathbb{R}^d\to\mathbb{R}$가 존재하여 $\|p\|_\mathrm{co}\le M$이고 모든 $\mathbf{x} \in {\cal X},\tilde \mathbf{x} \in {\cal B}_{\xi}(\mathbf{x})$에 대해 $B\ge p(\tilde\mathbf{x})f(\mathbf{x})\ge 1$이면, $f$는 $(K,M,B,\xi)$-PTF라고 말한다. 마찬가지로, 만약 차수가 $K$ 이하인 다항식 $p:\mathbb{R}^s\to\mathbb{R}$가 존재하여 $\|p\|_\mathrm{co}\le M$이고 모든 $\mathbf{x} \in {\cal X},\mathbf{y}\in {\cal B}_\xi(\mathbf{h}(\mathbf{x}))$에 대해 $B\ge p(\mathbf{y})f(\mathbf{x})\ge 1$이면, $f$는 $(K,M,B,\xi)$-PTF of $\mathbf{h}=(h_1,\ldots,h_s):{\cal X}\to[-1,1]$라고 말한다.
마지막으로, $f$가 $(K,M,B)$-PTF (resp. $(K,M,B)$-PTF of $\mathbf{h}$)인 경우, 이는 $(K,M,B,1)$-PTF (resp. $(K,M,B,1)$-PTF of $\mathbf{h}$)라는 것을 의미한다.
강한 볼록성
$W\subseteq\mathbb{R}^d$가 볼록하다고 하자. $f:W\to \mathbb{R}$가 미분 가능하며 $f$가 $\lambda$-강하게 볼록하다면, 모든 $\mathbf{x},\mathbf{y}\in W$에 대해
f(\mathbf{y}) \ge f(\mathbf{x} ) + {\left\langle \mathbf{y}-\mathbf{x} ,\nabla f(\mathbf{x} ) \right\rangle} + \frac{\lambda}{2}\|\mathbf{y}-\mathbf{x} \|^2
를 만족한다. 만약 $f$가 강하게 볼록하고 $\|\nabla f(\mathbf{x})\|\le \epsilon$이면, $\mathbf{x}$는 $f$를 상수 오차 $\frac{\epsilon^2}{2\lambda}$까지 최소화한다. 즉, 모든 $\mathbf{y}\in W$에 대해
\begin{eqnarray}
f(\mathbf{x}) &\le & f(\mathbf{y}) - \frac{\lambda}{2}\|\mathbf{y}-\mathbf{x} \|^2 + \|\mathbf{y}-\mathbf{x} \| \cdot \|\nabla f(\mathbf{x} )\|\nonumber
\\
&=& f(\mathbf{y})+\frac{\|\nabla f(\mathbf{x} )\|^2}{2\lambda} - \frac{1}{2\lambda}\left(\|\nabla f(\mathbf{x} )\|-\lambda\|\mathbf{y}-\mathbf{x} \|\right)^2
\\
&\le & f(\mathbf{y})+ \frac{\|\nabla f(\mathbf{x} )\|^2}{2\lambda}\nonumber
\\
&\le & f(\mathbf{y})+ \frac{\epsilon^2}{2\lambda}\nonumber
\end{eqnarray}
헤르미트 다항식
다음 결과들은 참조에 나와 있다. 헤르미트 다항식 $h_0,h_1,h_2,\ldots$은 표준 가우시안 측도 $\mu$에 대한 직교 다항식 시퀀스이다. 즉, 이는 $L^2(\mu)$에서의 $1,x,x^2,x^3,\ldots$의 그람-슈미트 과정을 통해 얻어진 직교 다항식 시퀀스다. 헤르미트 다항식은 다음과 같은 재귀 관계를 만족한다:
xh_{n}(x) = \sqrt{n+1}h_{n+1}(x) + \sqrt{n}h_{n-1}(x)\;\;,\;\;\;\;\;h_0(x)=1,\;h_1(x)=x
또는 다음과 같이 표현할 수 있다:
h_{n+1}(x) = \frac{x}{\sqrt{n+1}}h_{n}(x) - \sqrt{\frac{n}{n+1}}h_{n-1}(x)
헤르미트 다항식의 생성 함수는 다음과 같다:
e^{xt - \frac{t^2}{2}} = \sum_{n=0}^\infty \frac{h_n(x)t^n}{\sqrt{n!}}
또한 다음 관계가 성립한다:
마찬가지로, 만약 $X,Y\sim{\cal N}\left(0,\begin{pmatrix}1&\rho\\\rho&1\end{pmatrix}\right)$라면,
\mathbb{E}h_i(X)h_j(Y) = \delta_{ij}\rho^{i}
계층적 모델
${\cal X}\subseteq [-1,1]^d$가 우리의 인스턴스 공간이라고 하자. 우리는 다중 라벨 설정을 고려하며, 각 인스턴스는 $0$에서 $n$까지의 양수 라벨을 가질 수 있고 각 훈련 예제는 모든[^1] 양수 라벨 목록과 함께 제공된다. 따라서 우리의 목표는 샘플
S= \{(\mathbf{x} ^1,\mathbf{f}^*(\mathbf{x} ^1) # Limit to 15k chars for stability
</div>
<div style="margin-top: 20px;"><a href="https://arxiv.org/pdf/2601.00455.pdf" target="_blank">ArXiv 원문 PDF 보기</a></div>
<div class="mobile-ad w-full my-6 text-center" style="border: 2px dashed red; background: #ffe6e6;"><ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-1873718820012422" data-ad-slot="auto"></ins><script>(adsbygoogle = window.adsbygoogle || []).push({});</script></div>
<h4 style="margin-top: 3rem; margin-bottom: 1rem; border-bottom: 1px solid #e5e7eb; padding-bottom: 0.5rem;">감사의 말씀</h4>
이 글의 저작권은 연구하신 과학자분들께 있으며, 인류 문명 발전에 공헌해주신 노고에 감사를 드립니다.