그로킹을 유한 크기 전이로 검증한다

본 논문은 최근 머신러닝 커뮤니티에서 주목받고 있는 “그로킹(grokking)” 현상을 물리학의 전이 이론과 유한 크기 스케일링(FSS) 방법론을 통해 정량적으로 검증하고자 한다. 그로킹은 네트워크가 초기에는 훈련 데이터에 대한 암기(memorizaton) 단계에 머물다가, 매우 긴 최적화 과정을 거친 뒤 갑자기 테스트 정확도가 급격히 상승하는 현상이다. 기존 연구들은 이를 ‘phase transition’이라고 비유했지만, 실제로는 단일 시스템 크기에서 관측된 급격한 변화만으로는 전이의 존재를 증명하기에 충분치 않다. 따라서 저자들은 두 가지 핵심 입력을 정의한다. 첫 번째 입력은 시스템 크기를 나타내는 ‘광범위 변수(extensive variable)’이다. 여기서는 ℤₚ 군의 차수 p를 선택한다. p는 과제 자체(모듈러 덧셈)의 복잡도를 선형적으로 증가시키며, 모델 아키텍처, 옵티마이저, 정규화 등은 고정한다. p를 변화시킴으로써 동일한 과제 패밀리 내에서 크기만을 조절하는 전형적인 FSS 조건을 만족한다. 특히 소수 p만을 사용함으로써 군 구조가 변하지 않아 ‘동질’한 시스템군을 유지한다. 두 번째 입력은 내부 표현의 재구성을 포착하는 ‘오더 파라미터(order parameter)’이다. 저자들은 훈련 중 은닉 표현 zₜ∈ℝ^d의 공분산 행렬 Cₜ를 구하고, 고유값 λ_j를 정규화한 p_j = λ_j / Σ_k λ_k 를 정의한다. 이후 상위 k=5개의 질량과 하위 질량의 로그 비율 m_HTC(t)=log(∑_{j=1}^5 p_j / ∑_{j=6}^p p_j) 를 계산한다. 스펙트럼이 고르게 퍼져 있으면 m_HTC≈0, 몇 개의 주된 모드가 두드러지면 값이 크게 증가한다. 이 스칼라 지표는 Z₂ 대칭이 없지만, 양의 실수값을 갖는 전통적인 자기화와 유사하게 전이 분석에 활용될 수 있다. 실험 설정은 고정된 Transformer 모델(d_model=128, 2 인코더 레이어, 4 어텐션 헤드 등)과 AdamW 옵티마이저를 사용한다. 훈련 데이터는 ℤₚ×ℤₚ 전체(p²) 중 일정 비율 f를 선택해 학습에 사용하고, 나머지는 검증·테스트에 할당한다. 각 (p, f) 조합에 대해 50개의 무작위 초기화(seed)를 실행해 통계량을 수집한다. 분석 단계는 네 단계로 구성된다. (1) ‘원시 샤프닝(Raw sharpening)’에서는 m_HTC(f,p) 곡선이 p가 커질수록 전이 구간이 좁아지고 급격히 변하는 것을 관찰한다. (2) ‘Binder 교차(Binder crossing)’에서는 Binder‑like 누적량 U₄(f,p)=1−⟨m⁴⟩/(3⟨m²⟩²)를 계산하고, 서로 다른 p에 대해 U₄ 곡선이 f≈0.39 근처에서 교차함을 확인한다. 교차점의 위치는 1/p에 대해 선형 drift가 없으며, 이는 크기‑공통 임계점이 존재한다는 강력한 증거다. (3) ‘매끄러운 교차(crossover) 부정’에서는 susceptibility χ(f,p)=n_s·Var

그로킹을 유한 크기 전이로 검증한다

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기