PRISM: 비등방성 스펙트럼 셰이핑을 통한 효율적 2차 정보 활용 옵티마이저

PRISM: 비등방성 스펙트럼 셰이핑을 통한 효율적 2차 정보 활용 옵티마이저
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

PRISM은 Muon과 같은 1차 스펙트럼 최적화 방법에 부분적인 2차 정보를 결합한 새로운 옵티마이저이다. 혁신(gradient‑momentum 차) 를 저‑랭크 보강으로 활용해 극히 적은 연산·메모리 비용으로 공분산을 근사하고, 고분산 서브스페이스는 억제하면서 신호가 강한 방향은 그대로 강화하는 ‘비등방성 스펙트럼 셰이핑’ 메커니즘을 제공한다.

상세 분석

PRISM의 핵심 아이디어는 “혁신‑보강 폴라 분해(Innovation‑augmented Polar Decomposition)”이다. 기존 Muon은 모멘텀 M의 극단(orthogonal) 성분 U만을 사용해 P = (MᵀM)^{‑½} 라는 전치‑전치(precondition) 행렬을 만든다. 이는 E


댓글 및 학술 토론

Loading comments...

의견 남기기