가우시안 입력 마스킹 하에서 두‑계층 신경망의 수렴 분석
📝 Abstract
We investigate the convergence guarantee of two-layer neural network training with Gaussian randomly masked inputs. This scenario corresponds to Gaussian dropout at the input level, or noisy input training common in sensor networks, privacy-preserving training, and federated learning, where each user may have access to partial or corrupted features. Using a Neural Tangent Kernel (NTK) analysis, we demonstrate that training a two-layer ReLU network with Gaussian randomly masked inputs achieves linear convergence up to an error region proportional to the mask’s variance. A key technical contribution is resolving the randomness within the non-linear activation, a problem of independent interest.
💡 Analysis
**
1. 연구 배경 및 동기
- 실제 적용 사례: 연합 학습(특히 vertical FL), 가우시안 드롭아웃, 무선 채널을 통한 데이터 전송 등에서 입력 피처가 부분적으로 손실·노이즈가 섞이는 상황이 빈번히 발생한다.
- 기존 연구와 차별점: 기존 드롭아웃·노이즈 분석은 주로 활성화 후 마스크를 가정하거나, 잡음이 선형적으로 작용하는 경우에 한정돼 있었다. 본 논문은 활성화 전에 곱해지는 가우시안 마스크를 다루어, 비선형 함수와 잡음이 얽힌 복합 구조를 최초로 이론화한다.
2. 핵심 기여
| 번호 | 내용 | 의의 |
|---|---|---|
| ① | 가우시안 입력 마스크 하의 NTK 기반 수렴 증명 – 두‑계층 ReLU 네트워크가 충분히 넓을 때, 마스크 분산 κ²에 비례하는 오차 영역 내에서 선형(기하급수) 수렴을 보임. | 실제 시스템에서 잡음이 존재해도 학습이 안정적으로 진행될 수 있음을 이론적으로 보장. |
| ② | 비선형 활성화 내부 잡음 기대값 계산 – Truncated Gaussian의 기대값을 이용해 ‘스무딩된 ReLU(σₖ)’를 정의하고, 이를 통해 손실·그라디언트의 정확한 형태를 도출. | 기존 분석이 불가능했던 ‘잡음·비선형 결합’ 문제를 해결, 다른 비선형 모델에도 확장 가능. |
| ③ | 오차 항 E의 정량적 상한 제시 – | E |
| ④ | 정규화 해석 – 기대 손실의 두 번째 항 T₂가 Tangent Feature Outer‑Product 행렬에 기반한 ℓ₂‑정규화와 동등함을 보여, 마스크가 암묵적인 정규화 효과를 갖는다는 통찰을 제공. | 모델 설계 시 마스크를 정규화 기법으로 활용할 수 있는 이론적 근거. |
3. 기술적 접근법
문제 설정
- 입력 x ∈ ℝᵈ에 대해 c ~ 𝒩(𝟙, κ²I) 를 곱한 마스크 x⊙c 를 사용.
- 네트워크: f(W, x) = (1/√m) Σ_{r=1}^m a_r σ(w_rᵀ(x⊙c)), a_r ∈ {±1} 고정, w_r 학습 파라미터.
- 손실: MSE L(W) = (1/n) Σ_i (f(W, x_i) – y_i)².
NTK 스케일링
- 무한 폭 한계에서 NTK가 고정된 커널 Θ 로 수렴함을 이용, 유한 폭 보정 항을 포함한 기존 NTK 분석을 확장.
스무딩된 활성화 σₖ 정의
- σₖ(w, x) = 𝔼_c
📄 Content
신경망(NN)의 혁신과 다중 가우시안 마스크에 대한 이론적 분석
신경망(NN)은 인공지능(AI) 응용 분야에 혁명을 일으켰으며, 그 성공은 주로 잘 정제된 데이터셋으로 학습했을 때 복잡한 패턴을 학습하는 능력에 기인한다(Schuhmann et al., 2022; Li et al., 2023b; Gunasekar et al., 2023; Edwards, 2024). NN이 성공할 수 있었던 한 요인은 다양한 시나리오에서 광범위한 작업과 데이터 분포를 모델링할 수 있다는 점이다. 실증적 증거에 따르면, 신경망은 잡음이 섞인 입력(Kariotakis et al., 2024), 그래디언트 잡음(Ruder, 2017)뿐 아니라 학습 과정 중 내부 표현이 변형되는 경우에도 학습할 수 있다(Srivastava et al., 2014; Yuan et al., 2022). 이러한 신경망의 능력을 활용하여, 실제 배포 환경에서는 강인성, 프라이버시, 효율성 등 특정 목표를 달성하기 위해 학습 중 데이터 표현을 수정하는 경우가 많다.
대표적인 방법 중 하나는 덧셈 잡음(additive noise) 으로 표현을 교란하는 것으로, 다수의 선행 연구가 이를 조사하였다(Gao et al., 2019; Li et al., 2025, 2023a; Madry et al., 2018; Loo et al., 2022; Tsilivis & Kempe, 2022; Ilyas et al., 2019). 이러한 연구는 잡음이 주는 이점과 해당 설정에서 훈련이 안정적으로 수렴함을 보여준다. 반면, 곱셈 잡음(multiplicative noise) 으로 표현을 교란하는 경우는 이론적으로 거의 다루어지지 않았다.
1. 곱셈 잡음이 실제로 나타나는 경우
곱셈 잡음은 설계에 의해서든 우연히든 여러 실제 상황에서 나타난다.
- 연합 학습(Federated Learning, FL) 환경에서는 특히 수직 FL(vertical FL)에서 서로 다른 파티가 서로 다른 특성을 보유하게 되므로 입력 공간에 희소성을 유도하는 곱셈 마스크가 자연스럽게 형성된다(Cheng et al., 2020; Liu et al., 2021, 2022, 2024; Romanini et al., 2021; He et al., 2020).
- 드롭아웃(drop‑out) 계열(Srivastava et al., 2014; Rey & Mnih, 2021)은 과적합을 방지하고 일반화 능력을 향상시키기 위해 뉴런을 무작위로 마스킹하는 방법이며, 이는 곱셈 마스크의 한 형태라 할 수 있다.
- 무선 채널을 통한 데이터 병렬 학습에서는 전송 과정에서 채널 효과가 곱셈 형태로 데이터를 흐리게 만든다(Tse & Viswanath, 2005).
이러한 상황에서 신경망 훈련 역학을 이론적으로 분석하는 일은 특히 활성화 함수의 비선형성과 무작위성이 얽혀 있기 때문에 어렵다. 기존 연구 중 일부는 드롭아웃이 비선형 활성화 이후에 적용된다고 가정하고 수렴성을 분석했지만(Liao & Kyrillidis, 2022; Mianjy & Arora, 2020), 입력 단계에서 곱셈 잡음이 적용될 경우는 전혀 다른 난제를 제시한다.
2. 연구 목표 및 설정
본 논문에서는 비선형 활성화 이전에 적용되는 곱셈 잡음을 고려함으로써, 곱셈 교란이 신경망 훈련에 미치는 영향을 보다 깊이 이해하고자 한다. 구체적으로는 두 층 MLP(다층 퍼셉트론)를 대상으로, 입력에 가우시안 마스크가 곱해지는 상황을 분석한다. 이 모델은 다음과 같은 이유로 의미가 있다.
- 단순화된 프로토타입으로서, 활성화 내부에 잡음이 존재하는 어려움을 명확히 드러낸다.
- 입력을 고정된 임베딩(예: 깊은 신경망의 이전 층 출력)으로 본다면, 입력 마스킹(Kariotakis et al., 2024)부터 가우시안 드롭아웃(Rey & Mnih, 2021)까지 다양한 실제 훈련 시나리오를 포괄한다.
이러한 설정 하에서 우리는 다음과 같은 핵심 질문에 답하고자 한다.
신경망의 강인성(robustness) 은 기존 연구에서 주로 덧셈 교란을 중심으로 다루어졌다. Bartlett et al.(2017), Miyato et al.(2018) 등은 적대적 교란 하에서의 일반화 경계를 제시했으며, Lipschitz 상수가 강인성을 좌우한다는 점을 강조했다. 이후 Cohen et al.(2019)은 ℓ₂ 교란에 대한 무작위 스무딩(randomized smoothing) 기법을, Wong et al.(2018)은 증명 가능한 강인성을 갖는 네트워크 훈련 방법을 제안했다.
또한 정규화 기법은 강인성을 향상시키는 강력한 도구로 자리 잡았다. 드롭아웃은 내부 뉴런을 무작위로 마스킹함으로써 암묵적인 서브네트워크 앙상블을 형성한다(Yuan et al., 2022; Hu et al., 2023; Kariotakis et al., 2024; Wolfe et al., 2023; Liao & Kyrillidis, 2022; Dun et al., 2023, 2022). Ghorbani et al.(2021)은 드롭아웃을 데이터 의존 정규화의 한 형태로 해석했으며, 라플라시안 연속 분포에 기반한 희소성 유도 규범(sparsity‑inducing norms) 은 희소 복구 문제에서 오래전부터 활용되어 왔다(Bach et al., 2011, 2012; Jenatton et al., 2011; Kyrillidis et al., 2015).
3. 신경망 접선 커널(Neural Tangent Kernel, NTK) 프레임워크
Jacot et al.(2018)은 무한 폭 신경망이 가우시안 프로세스로 진화하며, 그 커널이 접선 피처(tangent features) 의 외적에 의해 결정된다고 밝혀냈다. 이후 연구들은 유한 폭 보정을 도입하고, 이를 다양한 아키텍처와 학습 시나리오에 적용하였다(Du et al., 2018, 2019b; Oymak & Soltanolkotabi, 2019). NTK는 **“게으른 학습(lazy training)”**이라고 불리기도 하지만, 실제로는 다양한 구조와 상황에서 신경망 훈련 동역학을 정확히 분석할 수 있는 몇 안 되는 이론적 도구이다(Nguyen, 2021; Du et al., 2019a; Truong, 2025; Wu et al., 2023).
특히, 무작위 뉴런 마스킹(예: 드롭아웃) 하에서 얕은 신경망의 수렴성을 NTK 기반으로 연구한 작업이 있다(Liao & Kyrillidis, 2022; Mianjy & Arora, 2020). 그러나 이들 대부분은 비선형 활성화 이후에 마스크가 적용된다는 가정을 두고 있어, 입력 단계에서의 곱셈 잡음에 대한 분석은 아직 남아 있다.
4. 문제 정의
데이터셋 ({(x_i, y_i)}_{i=1}^n)이 주어졌다고 하자. 우리는 두 층 ReLU 활성화 MLP를 다음과 같이 정의한다.
[ f(\theta, x)=\sum_{r=1}^{m} a_r ,\sigma!\bigl(w_r^{\top}x\bigr),\qquad \sigma(z)=\max{0,z}, ]
여기서 (\theta=\bigl({w_r}{r=1}^m,{a_r}{r=1}^m\bigr))는 파라미터이며, 두 번째 층 가중치 (a_r\in{\pm1})는 고정하고 첫 번째 층 가중치 (w_r)만 학습한다. 따라서 우리는 (f(W,x)\equiv f(\theta,x))와 같이 표기한다((W\in\mathbb{R}^{m\times d})).
목표는 MSE 손실
[ L(W)=\frac{1}{n}\sum_{i=1}^{n}\bigl(f(W,x_i)-y_i\bigr)^2 ]
을 최소화하는 것이다. 기존 연구(Du et al., 2018; Song & Yang, 2020; Oymak & Soltanolkotabi, 2019)는 NTK 스케일링 하에 충분히 큰 은닉 뉴런 수 (m)가 주어지면 선형 수렴을 보였다.
5. 곱셈 가우시안 마스크 모델
각 반복마다 입력에 동일한 가우시안 마스크 (c\sim\mathcal N(\mathbf 1_d,\kappa^2 I_d))가 곱해진다고 가정한다. 즉
[ \tilde f(W,x)=f\bigl(W,,x\odot c\bigr), ]
여기서 (\odot)는 원소별 곱(Hadamard product)이다. 마스크 집합 (C={c_i}_{i=1}^n)는 서로 독립이며, 매 반복마다 새롭게 샘플링된다. 실제로는 노이즈가 섞인 하드웨어에서 입력을 읽어들이는 상황이나, 사전 학습된 대형 모델의 임베딩을 미세조정(fine‑tuning)하는 경우에 해당한다.
SGD 업데이트는
[ W_{k+1}=W_k-\eta,\nabla_W L_{C_k}(W_k),\qquad L_{C_k}(W)=\frac{1}{n}\sum_{i=1}^{n}\bigl(f(W,x_i\odot c_i^{(k)})-y_i\bigr)^2, ]
와 같이 이루어진다. 여기서 (C_k)는 (k)번째 단계에서 사용된 마스크 집합이다. 우리는 원래 손실 (L(W))가 수렴하는지를 분석하고자 한다.
6. 가정
Assumption 3.1
데이터셋은 (|x_i|_2\le 1,\ |y_i|\le O(1))를 만족하고, 서로 다른 두 샘플 (x_i, x_j)는 상수 (q)에 대해 (x_i\neq q,x_j)이다. 이는 데이터가 **유계(bounded)**이며 **비퇴화(non‑degenerate)**함을 보장한다(Du et al., 2018; Song & Yang, 2020; Liao & Kyrillidis, 2022).
이 글은 AI가 자동 번역 및 요약한 내용입니다.