깊은 신경망에서의 특징 학습 동역학을 통한 스케일링 법칙 이해

딥러닝의 성공은 모델, 데이터, 컴퓨팅 자원이 증가함에 따라 일관된 성능 향상을 예측하는 스케일링 법칙과 연결되어 있지만, 큰 모델에서는 학습 불안정성과 수익 감소 현상이 나타난다. 이 논문은 무한 너비와 깊이의 극한에서 특징 학습 동역학을 분석하여 이러한 현상을 설명한다.

깊은 신경망에서의 특징 학습 동역학을 통한 스케일링 법칙 이해

초록

딥러닝의 성공은 모델, 데이터, 컴퓨팅 자원이 증가함에 따라 일관된 성능 향상을 예측하는 스케일링 법칙과 연결되어 있지만, 큰 모델에서는 학습 불안정성과 수익 감소 현상이 나타난다. 이 논문은 무한 너비와 깊이의 극한에서 특징 학습 동역학을 분석하여 이러한 현상을 설명한다.

상세 요약

이 논문에서는 깊은 신경망에서 스케일링 법칙이 어떻게 작동하는지에 대한 이해를 제공한다. 기존의 muP는 무한 너비 극한에서 특징 학습 동역학을 캐릭터라이즈하지만, 깊이 확장인 depth-muP는 두 개 이상의 내부 레이어가 있는 잔차 블록에서는 실패한다. 이 논문은 ResNets에 대한 신경망 특징 동역학(NFD)을 도출하여 무한 너비와 깊이 극한에서 특징 학습을 설명한다. NFD는 스케일링 법칙의 경향이 언제 지속되는지, 그리고 수익 감소가 발생하는 이유를 분석한다. 또한 1/sqrt(깊이) 잔차 스케일링으로 인해 깊이 무한 극한에서 기울기 독립 가정(GIA)이 다시 유효하게 되는 메커니즘을 밝혀낸다. 이를 통해 두 개의 내부 레이어를 갖는 잔차 블록에서도 같은 메커니즘이 큰 깊이에서 특징 학습 붕괴를 일으키는 원인으로 작용한다는 것을 보여준다.


📜 논문 원문 (영문)

🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...