깊은 신경망에서의 특징 학습 동역학을 통한 스케일링 법칙 이해
딥러닝의 성공은 모델, 데이터, 컴퓨팅 자원이 증가함에 따라 일관된 성능 향상을 예측하는 스케일링 법칙과 연결되어 있지만, 큰 모델에서는 학습 불안정성과 수익 감소 현상이 나타난다. 이 논문은 무한 너비와 깊이의 극한에서 특징 학습 동역학을 분석하여 이러한 현상을 설명한다.
초록
딥러닝의 성공은 모델, 데이터, 컴퓨팅 자원이 증가함에 따라 일관된 성능 향상을 예측하는 스케일링 법칙과 연결되어 있지만, 큰 모델에서는 학습 불안정성과 수익 감소 현상이 나타난다. 이 논문은 무한 너비와 깊이의 극한에서 특징 학습 동역학을 분석하여 이러한 현상을 설명한다.
상세 요약
이 논문에서는 깊은 신경망에서 스케일링 법칙이 어떻게 작동하는지에 대한 이해를 제공한다. 기존의 muP는 무한 너비 극한에서 특징 학습 동역학을 캐릭터라이즈하지만, 깊이 확장인 depth-muP는 두 개 이상의 내부 레이어가 있는 잔차 블록에서는 실패한다. 이 논문은 ResNets에 대한 신경망 특징 동역학(NFD)을 도출하여 무한 너비와 깊이 극한에서 특징 학습을 설명한다. NFD는 스케일링 법칙의 경향이 언제 지속되는지, 그리고 수익 감소가 발생하는 이유를 분석한다. 또한 1/sqrt(깊이) 잔차 스케일링으로 인해 깊이 무한 극한에서 기울기 독립 가정(GIA)이 다시 유효하게 되는 메커니즘을 밝혀낸다. 이를 통해 두 개의 내부 레이어를 갖는 잔차 블록에서도 같은 메커니즘이 큰 깊이에서 특징 학습 붕괴를 일으키는 원인으로 작용한다는 것을 보여준다.
📜 논문 원문 (영문)
🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...