깊은 피드포워드 네트워크를 위한 랜덤 워크 초기화
초록
본 논문은 매우 깊은 피드포워드 신경망(FFN)에서 역전파 시 발생하는 기울기 소실·폭발 문제를, 각 층마다 서로 다른 무작위 행렬을 곱하는 과정으로 모델링한다. 로그 norm이 무작위 보행을 이루도록 스케일링 파라미터 g를 선택하면, 기울기 로그 norm의 평균은 0에 가깝게 유지되고 분산은 깊이에 비례해 선형적으로 증가한다. 최적 g는 층 폭 N에 따라 g≈exp(−1/(2N))(선형) 혹은 g≈√2·exp(−1/(4·max(N,6)))(ReLU) 로 계산된다. 실험은 MNIST와 TIMIT 과제에서 제안된 초기화가 깊은 네트워크(수백 층) 학습을 안정화함을 보여준다.
상세 분석
본 연구는 깊은 피드포워드 네트워크(FFN)의 학습 난제인 기울기 소실·폭발 현상을, 재귀 신경망(RNN)에서의 전형적인 고유값 분석과는 다른 관점에서 접근한다. RNN에서는 동일한 가중치 행렬이 시간 단계마다 반복 적용되므로, 행렬의 주고유값 크기가 1보다 크면 기울기가 기하급수적으로 증가하고, 작으면 급격히 소멸한다. 반면 FFN에서는 각 층마다 독립적인 무작위 행렬 Wₙ이 적용되므로, 기울기 전파는 서로 다른 랜덤 행렬들의 연속 곱으로 표현된다. 이때 중요한 변수는 각 층에서의 스칼라 zₙ=‖˜Wₙ δₙ‖²/‖δₙ‖²이며, 이는 확률 변수의 곱 형태가 된다. 로그를 취하면 ln Z=∑ₙ ln zₙ+ D ln g²가 되며, 이는 평균이 0이 되도록 g를 조정하면 “편향되지 않은” 랜덤 워크가 된다.
수학적으로 ˜Wₙ을 i.i.d. 가우시안(분산 1/N)으로 가정하면, ˜Wₙ δₙ/‖δₙ‖는 가우시안 벡터가 되고, 그 제곱 노름 zₙ는 χ²_N/N 분포를 따른다. χ² 분포의 평균과 분산을 이용해 ln zₙ의 기대값을 1차 근사하면 E
댓글 및 학술 토론
Loading comments...
의견 남기기