고차원 확률적 경사 하강법의 모멘텀 및 적응형 학습률 한계 정리

고차원 확률적 경사 하강법의 모멘텀 및 적응형 학습률 한계 정리
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 고차원 스케일링 한계에서 모멘텀을 갖는 SGD(SGD‑M)와 정규화된 적응형 학습률을 적용한 SGD‑U의 동역학을 엄밀히 분석한다. 핵심 결과는 SGD‑M이 적절한 시간·학습률 재조정 없이 고차원 효과를 증폭시켜 성능이 저하될 수 있음을 보이며, 반면 SGD‑U는 고정점이 모집단 최소에 더 가깝고 허용 가능한 학습률 범위가 넓어 안정적인 수렴을 제공한다는 점이다. 스파이크 텐서 PCA와 단일 지수 모델을 통해 이론을 실증한다.

상세 분석

논문은 먼저 기존 고차원 확률적 경사 하강법(SGD)의 연속시간 한계 이론을 확장하여, 모멘텀 파라미터 β∈


댓글 및 학술 토론

Loading comments...

의견 남기기