동적 풍부성 측정을 위한 새로운 저랭크 기반 지표와 시각화
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.
초록
본 논문은 정확도와 무관하게 신경망의 동적 풍부성을 정량화하는 저비용 지표 Dₗᵣ을 제안한다. 저랭크 편향을 활용해 마지막 층 전후의 특징 커널을 비교하고, 신경 붕괴를 특수 경우로 포함한다. 실험을 통해 기존 풍부성 지표보다 안정적이며, 러시-레이지 전이(grokking 등)를 정확히 포착함을 보인다. 또한 학습률, 배치 정규화 등 훈련 요인이 풍부성에 미치는 영향을 분석하고, 고유값 분해 기반 시각화 기법을 제시한다.
상세 분석
논문은 “풍부한 동적(rich dynamics)”과 “게으른 동적(lazy dynamics)”을 구분하고, 이들을 평가하기 위한 독립적인 메트릭이 필요하다는 점을 강조한다. 기존 연구에서는 NTK 변화나 초기 커널과의 유사도, 파라미터 노름, 혹은 클래스 평균 간 거리 등으로 풍부성을 추정했지만, 이들 지표는 성능에 종속되거나 계산 비용이 높고, 레이블이 없는 상황에 적용하기 어렵다. 저자들은 이러한 한계를 극복하기 위해 마지막 층 전후의 특징 커널 T와 최소 투영 연산자 Tₘₚ를 정의한다. Tₘₚ는 학습된 함수 공간 Ĥ에 대한 정규 직교 투영으로, 이론적으로는 저랭크(즉, 클래스 수 C) 차원만을 사용한다. 풍부성 지표 Dₗᵣ은 1 − CKA(T, Tₘₚ) 형태이며, CKA는 중심화된 커널 정렬을 이용해 두 연산자의 유사도를
댓글 및 학술 토론
Loading comments...
의견 남기기