적응형 모멘텀과 비선형 감쇠를 활용한 대규모 신경망 최적화

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 각 파라미터의 운동 에너지에 기반해 개별적인 모멘텀 계수를 동적으로 조정하는 연속시간 최적화 프레임워크를 제안한다. 선형 감쇠 대신 입자 운동에 대한 입체적(큐빅) 감쇠를 도입해 안정성을 높이고, 이를 mSGD와 Adam에 적용한 두 가지 알고리즘(iKF‑AD와 CD)을 설계한다. 이론적으로 지수 수렴을 증명하고, ViT, BERT, GPT‑2와 같은 변형 모델 학습에서 Adam과 동등하거나 우수한 성능을 실험적으로 확인한다.

상세 분석

논문은 먼저 기존 모멘텀 기반 최적화(mSGD)를 연속시간 Hamiltonian 시스템으로 해석한다. 위치 x와 모멘텀 p를 상태 변수로 두고, 손실 f(x)를 포텐셜 에너지, p²/2를 운동 에너지로 보는 것이 핵심이다. 선형 감쇠 −γp는 모멘텀을 감소시키는 마찰 역할을 하며, 이때 γ와 이산 모멘텀 계수 μ는 μ=1−γ√Δt 관계로 직접 연결된다. 기존 방법은 γ를 전역 상수로 고정해 모든 파라미터에 동일한 감쇠를 적용한다는 한계가 있다. 저자는 파라미터별 운동 에너지

적응형 모멘텀과 비선형 감쇠를 활용한 대규모 신경망 최적화

초록

상세 분석

댓글 및 학술 토론

의견 남기기