노이즈에 강한 가중치 분해를 통한 신경망 정규화

FaMe(Factored Mean) 모델은 각 층의 가중치를 두 개의 행렬로 분해하고, 첫 번째 행렬에 가우시안·베르누이 등 잡음을 곱해 학습한다. 테스트 시에는 잡음의 평균값을 사용해 원래 가중치 행렬을 복원함으로써 Dropout과 유사한 모델 앙상블 효과를 제공하면서도 희소 활성화에 대한 제한을 완화한다. MNIST와 CIFAR‑10/100 실험에서 파라미터 수가 적음에도 불구하고 Dropout·Maxout보다 낮은 오류율을 기록하였다.

저자: Jan Rudy, Weiguang Ding, Daniel Jiwoong Im

노이즈에 강한 가중치 분해를 통한 신경망 정규화
본 논문은 대규모 신경망의 과적합을 방지하기 위한 새로운 정규화 기법인 Factored Mean training, 약칭 FaMe를 제안한다. 기존의 Dropout은 은닉 유닛을 무작위로 마스킹함으로써 지수적인 수의 서브네트워크를 학습하고, 테스트 시에는 가중치를 스케일링해 평균 모델을 근사한다. 그러나 ReLU와 같은 비선형 활성화에서는 많은 유닛이 0값을 가지게 되며, 이 경우 Dropout의 잡음이 실제로 적용되지 않아 정규화 효과가 감소한다는 문제가 있다. FaMe는 이러한 문제를 해결하기 위해 가중치 행렬 W를 두 개의 행렬 U와 V로 분해한다. 구체적으로, l번째 층의 입력 h^{(l‑1)}에 대해 먼저 U^{(l)} h^{(l‑1)} 를 계산하고, 여기서 얻은 요인 벡터에 독립적인 잡음 r^{(l)} (베르누이 혹은 가우시안)를 원소별로 곱한다. 그 후 V^{(l)} 를 적용해 최종 은닉 활성화 h^{(l)} 를 얻는다. 수식으로는 h^{(l)} = σ^{(l)}( V^{(l)} ( U^{(l)} h^{(l‑1)} ⊙ r^{(l)} ) + b^{(l)} ). 학습 단계에서는 매 미니배치마다 r^{(l)}가 새롭게 샘플링되므로, 각 배치마다 서로 다른 ‘가중치 샘플’이 사용된다. 이는 Dropout이 각 배치마다 다른 서브네트워크를 학습하는 것과 동일한 효과를 제공하지만, 잡음이 직접 가중치에 작용하므로 0‑활성화된 유닛에도 영향을 미친다. 테스트 단계에서는 r^{(l)}의 기대값(보통 1)으로 대체한다. 이때 V^{(l)}U^{(l)} = W^{(l)}가 복원되어 기존 피드포워드 네트워크와 동일한 연산을 수행한다. 따라서 학습 중에 탐색한 다수의 서브모델을 평균화한 효과를 정확히 구현한다. FaMe의 설계는 두 가지 중요한 자유도를 제공한다. 첫째, 요인 차원 f^{(l)} 를 조절함으로써 W^{(l)}의 랭크를 제한하거나 완전하게 유지할 수 있다. f^{(l)} = min(n^{(l)}, n^{(l‑1)})로 설정하면 파라미터 수가 크게 늘어나지 않으면서도 완전한 표현력을 유지한다. 둘째, 잡음 분포를 자유롭게 선택할 수 있어, 베르누이(드롭아웃과 동일) 혹은 평균 1, 분산 1인 정규분포 등 다양한 형태를 실험에 적용한다. 실험은 MNIST와 CIFAR‑10/100 두 데이터셋을 대상으로 수행되었다. MNIST에서는 2‑층 1024‑유닛 모델에 Gaussian Dropout과 Gaussian FaMe를 각각 적용하였다. Dropout은 0.95 ± 0.05% 오류를 보였으며, FaMe는 0.91 ± 0.02%로 유의미하게 개선되었다. 또한 3‑층 512‑유닛 모델에서는 파라미터가 약 93 K에 불과했음에도 Maxout(2.3 M 파라미터)과 Dropout(1.9 M 파라미터) 수준의 성능을 달성했다. CIFAR‑10/100 실험에서는 3개의 FaMe 컨볼루션 레이어와 2개의 완전 연결 FaMe 레이어로 구성된 네트워크를 사용하였다. 결과는 Dropout을 모든 레이어에 적용한 ConvNet(12.61% / 37.20%)보다 약간 높은 오류(12.85% / 39.79%)를 보였지만, 파라미터 효율성 측면에서 경쟁력이 있었다. 학습 곡선 분석에서는 FaMe가 에폭이 진행될수록 테스트 손실이 지속적으로 감소하는 반면, Dropout은 일정 시점 이후 과적합 현상이 나타나는 것을 확인하였다. 논문의 기여는 다음과 같다. (1) 가중치 행렬을 두 단계 선형 변환으로 분해하고 잡음을 적용하는 새로운 정규화 프레임워크 제시, (2) Dropout과 유사한 모델 앙상블 효과를 유지하면서 희소 활성화에 대한 제한을 완화, (3) 저랭크 제약을 통해 파라미터 수를 크게 줄이면서도 성능을 유지하거나 향상, (4) 기존 게이팅 모델과 수식적 연관성을 밝혀 이론적 기반을 제공. 한계점으로는 현재 구현이 주로 완전 연결 층에 초점을 맞추었으며, 컨볼루션 층에 적용할 경우 두 단계의 1×1 conv 연산이 추가되어 연산량이 증가한다는 점, 그리고 잡음 분포와 요인 차원 선택이 하이퍼파라미터로 남아 자동화가 필요하다는 점을 들 수 있다. 향후 연구에서는 잡음의 스케일을 학습 가능한 파라미터로 두거나, 요인 차원을 데이터에 따라 동적으로 조절하는 메커니즘을 도입해 보다 일반화된 정규화 기법으로 확장할 여지가 있다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기