특징 학습과 소멸의 이분법: 빠른‑느린 동역학으로 본 신경망 SGD
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.
초록
본 논문은 무한 폭 2층 신경망을 대규모 배치 SGD로 학습할 때, 첫 번째 층 가중치 정렬은 빠르게 진행되고 두 번째 층 가중치 규모는 느리게 변한다는 ‘빠른‑느린’ 구조를 발견한다. 이 구조에서 급속히 형성된 임계 다양체 위를 따라 흐르는 느린 동역학이 특정 조건(비선형 항의 강도, 초기 2층 가중치 규모) 하에 특징 소멸(feature unlearning)을 일으킨다. 저자는 텐서 프로그램과 특이 섭동 이론을 이용해 미분 방정식을 유도하고, 수치 실험으로 이론을 검증한다.
상세 분석
논문은 먼저 입력 차원 d와 배치 크기 n이 동시에 무한대로 가는 고차원 한계(n/d→δ)와, 네트워크 폭 m→∞인 두 단계 극한을 고려한다. 교사 모델은 단일 인덱스 형태 y=σ★(⟨w★,x⟩/√d)+ε 로 설정하고, σ★와 학생 모델의 활성화 σ는 Hermite 전개가 가능한 다항적으로 제한된 함수로 가정한다. 초기 가중치는 대칭적으로 a₀ᵢ=ȧ>0, w₀ᵢ∼N(0,I_d) 로 잡아, 매 반복마다 첫 층 가중치를 정규화해 ‖wᵢ‖=√d 를 유지한다. 텐서 프로그램을 이용해 온라인 SGD의 차분식을 무한 폭 한계에서 연속 시간 τ=γt/m 로 스케일링하면, 교사‑학생 정렬 R(τ)=p‑lim⟨w★,wᵢ⟩/d 와 2층 가중치 규모 a(τ)=p‑lim aᵢ 가 만족하는 2차원 ODE를 얻는다.
\
댓글 및 학술 토론
Loading comments...
의견 남기기