비역전파 기반 교대 최적화와 반음수 행렬분해를 이용한 심층 신경망 학습

본 논문은 딥러닝 분야에서 가장 널리 사용되는 역전파(back‑propagation, BP) 알고리즘이 갖는 몇 가지 근본적인 한계—미분이 가능한 손실 함수에 대한 의존성, 학습률과 같은 하이퍼파라미터 튜닝의 어려움, 그리고 지역 최소점에 빠질 위험—을 극복하고자 새로운 가중치 학습 방법을 제안한다. 제안된 방법은 완전 연결(fully‑connected) 심층 신경망(DNN)의 가중치 행렬을 두 종류의 반음수 행렬분해(semi‑nonnegative matrix factorization, semi‑NMF)로 교대로 최적화하는 ‘교대 최적화(Alternating Optimization)’ 프레임워크를 기반으로 한다. 1. **문제 정의 및 목표 함수** 기존 DNN의 손실 함수는 일반적으로 교차 엔트로피나 제곱 오차와 같은 발산 함수 D(·,·)와 정규화 항 h(·)을 포함한다. 저자들은 여기서 활성화 함수 f 를 ReLU로 고정하고, 손실을 단순히 출력과 목표 사이의 Frobenius norm 제곱 ½‖Y‑W_d f(…f(W₁X)… )‖_F² 으로 정의한다. 이렇게 하면 각 층의 가중치가 독립적인 최소화 문제로 분해될 수 있다. 2. **교대 최적화 알고리즘** 전체 손실 E(W₁,…,W_d) 을 최소화하기 위해, 초기 가중치 W^{(0)}₁,…,W^{(0)}_d 를 설정한 뒤 반복적으로 각 층을 역순으로 업데이트한다. 구체적으로 i = d, d‑1,…,1 순서로 E_i^{(k)}(W_i) 를 최소화한다. 여기서 E_i^{(k)} 은 현재까지 업데이트된 다른 층의 가중치를 고정한 서브문제이다. 3. **출력층 W_d 의 semi‑NMF** 출력층은 Z_{d‑1} (전 층의 활성화 출력)이 비음수임을 이용해 min_{W_d, Z_{d‑1}≥0}‖Y‑W_d Z_{d‑1}‖_F² 문제로 변환한다. 이는 ‘semi‑NMF’라 불리며, 한 행렬은 부호 제한이 없고 다른 행렬은 비음수 제약만을 가진다. 기존 연구

비역전파 기반 교대 최적화와 반음수 행렬분해를 이용한 심층 신경망 학습

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기