깊은 행렬 분해에서 드러나는 암묵적 정규화

본 논문은 깊은 선형 신경망(Deep Matrix Factorization)에서 경사하강법이 유도하는 암묵적 정규화 현상을 분석한다. 깊이를 늘릴수록 저랭크 해에 대한 편향이 강화되어 관측 데이터가 부족한 상황에서도 복원 정확도가 향상됨을 이론과 실험으로 입증한다. 또한 기존의 핵심 노름(nuclear norm) 혹은 Schatten‑p quasi‑norm과 같은 단순 정규화 기준으로는 이러한 깊이‑의존적 편향을 충분히 설명할 수 없으며, 최적…

저자: Sanjeev Arora, Nadav Cohen, Wei Hu

본 논문은 딥러닝 모델이 일반화 능력을 보이는 근본 원인 중 하나로 제시되는 “암묵적 정규화(implicit regularization)” 현상을 깊은 선형 신경망, 즉 Deep Matrix Factorization(DMF)이라는 간단한 수학적 모델을 통해 체계적으로 탐구한다. 1. **연구 배경 및 동기** 딥 뉴럴 네트워크는 파라미터 수가 학습 데이터보다 훨씬 많음에도 불구하고 뛰어난 일반화 성능을 보인다. 기존의 명시적 정규화(가중치 감쇠, 드롭아웃 등)만으로는 이를 설명하기 부족하다는 점에서, 경사하강법 같은 최적화 알고리즘 자체가 특정 형태의 정규화 효과를 내재하고 있다는 가설이 제기되었다. 그러나 이 “암묵적 정규화”를 정량화하거나 일반화 이론과 연결시키는 작업은 아직 초기 단계이며, 특히 실제 데이터에 대한 복잡한 비선형 구조 때문에 직접적인 분석이 어려웠다. 2. **문제 설정: 행렬 완성과 행렬 감지** 저자들은 분석을 용이하게 하기 위해 행렬 완성(Matrix Completion)과 행렬 감지(Matrix Sensing) 문제를 선택한다. 관측된 일부 원소(또는 선형 측정값)만으로 원본 저랭크 행렬 \(W^*\)를 복원하는 이 문제는 저랭크성을 촉진하는 정규화와 직접 연결된다. 기존 방법으로는 핵심 노름(nuclear norm) 최소화가 저랭크 복원의 완화(convex relaxation)로 널리 사용된다. 3. **깊은 행렬 분해 모델 정의** 전통적인 행렬 분해는 두 개의 행렬 \(W_2W_1\) (깊이 2)로 표현된다. 이를 일반화하여 깊이 \(N\)인 모델을 \

깊은 행렬 분해에서 드러나는 암묵적 정규화

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기