조기 붕괴 방지를 위한 적응형 어닐링
초록
본 논문은 엔트로피 정규화 최적 수송(Sinkhorn)에서 온도 파라미터 ε를 급격히 감소시킬 때 발생하는 ‘조기 모드 붕괴’를 이론적으로 분석하고, 안정성을 보장하는 적응형 스케줄링 알고리즘 EPH‑ASC를 제안한다. 선형 안정성 법칙 τ ∝ ε에 기반해 프루닝·일시 정지를 적용함으로써 대규모 언어 모델 학습과 이미지 매칭에서 급격한 그래디언트 폭발을 방지한다.
상세 분석
논문은 먼저 엔트로피 정규화 OT의 핵심 연산인 Sinkhorn 고정점 맵 Sₑ(C) 의 비정규(non‑normal) 동역학을 상세히 파고든다. 저자는 ε가 작아질수록 최적 플랜의 민감도가 O(1/ε) 로 급증하고, 이에 따라 Jacobian Jₑ 의 스펙트럴 갭 1‑ρ(Jₑ) 가 Θ(ε) 로 감소한다는 사실을 정리한다. 이는 고정점 주변의 수렴 반경 R(ε) 가 선형적으로 축소됨을 의미하며, “선형 안정성 스케일링”이라는 법칙 τₜ ∝ ε 로 요약된다.
이러한 수학적 배경 위에 “Thermodynamic Speed Limit”을 도출한다. 추적 오차 eₜ 는 두 힘의 균형, 즉 드리프트(δₜ ≈ Δε)와 복원력(Θ(ε)) 사이에서 결정된다. 정리 3.2에 따르면 안정적인 추적을 위해서는 δₜ ≤ O(ε²) 가 필요하다. 즉, ε를 지수적으로 감소시키는 전통적 스케줄(δₜ ∝ ε)은 이 한계를 위반해 필연적으로 모드 붕괴를 초래한다.
이를 해결하기 위해 제안된 EPH‑ASC는 두 단계로 구성된다. 첫 번째 오프라인 캘리브레이션 단계에서는 인위적으로 급격한 스케줄을 적용해 붕괴 시점의 drift/ε 비율을 측정하고 안전 계수 k_safe 를 추정한다. 두 번째 온라인 단계에서는 매 iteration마다 프루닝 ‖Δₜ‖_F 를 계산하고, ‖Δₜ‖_F ≤ k_safe·εₜ 인 경우에만 온도를 감소시킨다. 조건을 위반하면 “Thermodynamic Pause”를 걸어 εₜ₊₁ ← εₜ 로 고정하고, 모델이 특징 표현을 충분히 정제할 때까지 대기한다. 이 메커니즘은 복원력(스펙트럴 갭)과 드리프트를 실시간으로 매칭시켜, 비정규성에 의해 발생하는 일시적 증폭을 억제한다.
실험에서는 SPair‑71k 이미지 매칭과 FineWeb‑Edu 대규모 언어 모델 학습 두 가지 벤치마크를 사용한다. 이미지 실험에서 EPH‑ASC는 Gumbel‑Sinkhorn 대비 1.6배 빠른 수렴을 달성하고, 전통적 지수 스케줄은 20 epoch 에서 조기 붕괴해 정확도가 정체된다. 언어 모델 실험에서는 1,000 step 중 980 step 에서 폭발적인 그래디언트가 발생한 Naive 스케줄과 달리, EPH‑ASC는 640 step 에서 조기 경고를 감지해 온도를 고정, 이후 340 step 여유를 두고 안정적으로 학습을 마친다.
이러한 결과는 “프루닝 기반 선형 안정성 법칙”이 실제 대규모 시스템에서도 유효함을 입증한다. 또한, 복잡한 비정규 연산을 포함하는 현대 딥러닝 파이프라인에서 온도 파라미터를 단순히 감소시키는 것이 아니라, 시스템의 현재 민감도와 복원력을 정량화해 동적으로 제어해야 함을 강조한다.
댓글 및 학술 토론
Loading comments...
의견 남기기