샤프니스 어웨어 최소화가 만들어내는 “환상적 최소점”
초록
본 논문은 SAM(Sharpness‑Aware Minimization)의 표준 구현이 원래 손실 함수의 기울기가 0이 아닌 지점에서도, 변형된(이동된) 점의 기울기가 0이 되면 학습이 정지할 수 있음을 보인다. 이를 “환상적 최소점”(hallucinated minimizer)이라 명명하고, 단순한 비볼록 구조(예: 지역 최소점과 지역 최대점이 동시에 존재)에서 이러한 점이 존재함을 정리와 정리 2.2·2.4 로 증명한다. 또한 이 점들이 SAM의 이산 시간 업데이트에서 지역적으로 끌어당겨지는 attractor가 될 수 있음을 정리 3.1·3.2 로 제시한다. 실험에서는 신경망 훈련 시 변형된 기울기와 원래 기울기의 불일치를 관찰하고, 큰 ρ(perturbation radius)에서 성능 저하와 연결시킨다. 마지막으로 짧은 SGD 워밍업 후 SAM을 적용하면 환상적 최소점에 빠지는 현상이 크게 완화된다는 실용적 방안을 제시한다.
상세 분석
SAM은 원래 목적을 “min x max_{‖ε‖≤ρ} f(x+ε)” 로 표현하고, 내부 최댓값을 ∇f(x)의 정규화 방향으로 1차 근사한다. 이때 정의되는 대리 손실 f_SAM(x)=f(x+ρ u(x)), u(x)=∇f(x)/‖∇f(x)‖이다. 하지만 실제 구현은 ∇f_SAM(x) 대신 ∇f(x+ρ u(x))를 사용해 파라미터를 업데이트한다. 이 차이로 인해 ∇f(x+ρ u(x))=0이면 업데이트가 멈추지만, 원래 기울기 ∇f(x)≠0일 수 있다. 이러한 점을 “환상적 최소점”이라 정의하고, 이는 f_SAM의 지역 최소점이면서 f의 stationary point가 아니다.
정리 2.1은 환상적 최소점의 정의를 명확히 하고, 비특이점(non‑degenerate) 상황에서는 ∇f_SAM(x)=0 ⇔ ∇f(x+)=0 가 성립함을 보인다. 이어 정리 2.2는 f가 연속 미분 가능하고 전역 최소점 x와 고립된 지역 최대점 x·를 가질 때, ρ≥‖x−x·‖인 구간에서 환상적 최소점이 존재함을 증명한다. 핵심 아이디어는 x· 근처의 상위 레벨 집합 C_ε를 잡고, 그 경계에서 ‖x−x*‖를 최대화하는 점 x_h를 선택한다. 라그랑주 승수법을 적용하면 ∇f(x_h)가 x를 향하도록 정렬되고, ρ=‖x−x_h‖ 로 정의하면 x_h+ = x* 가 된다. 따라서 ∇f(x_h+)=∇f(x*)=0 이면서 ∇f(x_h)≠0, 즉 환상적 최소점이 된다.
정리 2.4는 고립되지 않은 최대점 집합 X (예: 대칭에 의해 형성된 평면)에도 동일한 결과가 확장될 수 있음을 보여준다. 여기서는 실함수(real‑analytic) 가정이 필요해 로자시비치(Lojasiewicz) 부등식을 이용해 경계에서의 임계점이 X에 포함된다는 것을 보장한다. 이렇게 하면 C_ε의 경계가 매끄러운 초수준 집합이 되고, 위와 동일한 라그랑주 논법을 적용할 수 있다.
동적 측면에서는 정리 3.1이 SAM 이산 시간 업데이트가 환상적 최소점이 포함된 연결 성분을 지역적으로 끌어당기는 attractor 로 작동할 수 있음을 제시한다. 이는 Jacobian I+ρ∇u(x) 가 비특이점일 때, 고정점의 선형 안정성이 보장되기 때문이다. 정리 3.2는 환상적 최소점이 고립되지 않을 경우, 변형 맵 x↦x+ 가 국소적으로 역함수이면 해당 최소점 집합이 원래 최소점 매니폴드와 동일 차원의 매니폴드 형태로 존재한다는 것을 증명한다.
실험에서는 (1) 완전 배치(full‑batch) 설정에서 작은 ρ에서는 정상적인 수렴을 보이지만, ρ를 크게 늘리면 ∇f(x+ )≈0 이면서 ∇f(x)≠0 인 점에 수렴한다는 현상을 직접 확인했다. (2) 대규모 신경망에서도 “shifted‑gradient vs. original‑gradient” 차이를 측정해 비슷한 패턴을 관찰했으며, 이는 기존 보고된 큰 ρ에서의 성능 저하와 일치한다. (3) 짧은 SGD 워밍업(예: 5~10 epoch) 후 SAM을 시작하면 환상적 최소점에 빠지는 확률이 크게 감소하고, ρ에 대한 민감도가 완화된다. 이는 초기 파라미터가 이미 “평탄한” 영역에 위치하도록 만들어, 변형된 기울기가 원래 기울과 크게 차이나는 상황을 방지한다는 직관과 일치한다.
이 논문은 기존 SAM 이론이 주로 ρ가 충분히 작을 때의 수렴성을 다루는 반면, 큰 ρ에서 발생할 수 있는 구조적 실패 모드를 명시적으로 밝혀냈다. 특히 비볼록성, 최대점 존재, 변형 맵의 비특이점 여부가 환상적 최소점 발생에 핵심적인 역할을 한다는 점을 정리와 정리 2·3·4 로 체계화했다. 실무적으로는 워밍업 전략을 제안함으로써, SAM을 사용할 때 ρ 선택에 대한 위험을 완화할 수 있는 간단하면서도 효과적인 방법을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기