선형 차원에서 모든 ERM이 실패할 수 있음: 확률적 볼록 최적화 하한
초록
본 논문은 표본 수가 차원에 비례할 때 학습은 가능하지만, 경험 위험 최소화(ERM)가 유일하고 과적합되는 사례를 선형 차원에서 구성한다. 또한 근사 ERM와 제한된 구배 하강법(GD)에도 동일한 과적합 현상이 발생함을 보이며, GD의 일반화 하한을 Ω(η T / m^{1.5}) 로 제시해 기존 상한 O(η T / m)과의 격차를 크게 줄인다.
상세 분석
이 논문은 확률적 볼록 최적화(SCO) 환경에서 “베스트‑케이스” ERM이 언제든지 일반화에 실패할 수 있음을 보여준다. 기존 연구에서는 차원이 표본 수에 비해 지수적으로 커지는 경우에만 유일한 ERM이 과적합된다는 예가 알려졌으며, 차원과 표본 수가 선형 관계일 때는 아직 해결되지 않은 문제가 남아 있었다. 저자들은 차원 d = 6·m인 인스턴스를 정교히 설계하여, 표본 m개만으로도 경험 위험을 정확히 0으로 만들 수 있지만, 그 최소점이 고유하고 인구 위험(population risk)에서는 상수 수준의 초과 손실을 갖게 만든다. 특히, 손실 함수는 1‑Lipschitz이면서 λ‑강볼록(strongly convex)이며, λ = Θ(m^{‑3/2}) 정도의 작은 강도에도 불구하고 ε‑ERM(ε = Θ(m^{‑3/2}))조차도 일반화 오류가 Ω(1)임을 증명한다. 이는 “근사 ERM도 실패한다”는 강력한 부정 결과이며, 기존에 정규화된 ERM이나 SGD와 같은 비‑ERM 방법이 제공하는 O(1/√m) 수준의 오류와는 근본적인 차이를 만든다.
다음으로 저자들은 이 구성 위에 구배 하강법(GD)의 동작을 분석한다. 제한된(프로젝션된) GD는 학습률 η와 반복 횟수 T에 따라 경험 위험을 η + 1/(ηT) 정도로 감소시킬 수 있다. 그러나 일반화 오차는 안정성 분석을 통해 O(η√T + ηT/m)이라는 상한이 알려져 있다. 논문은 새로운 하한 Ω(η T / m^{1.5})을 도출함으로써, η T가 Θ(m√m) 수준이면 GD가 반드시 과적합한다는 것을 보인다. 이는 기존 하한 Ω(η√T + 1/(ηT))와 비교했을 때, 학습률·시간·표본 수 사이의 관계를 훨씬 정밀하게 규명한 결과이다. 특히, 이 하한은 다항식 차원(선형 차원)에서도 성립하므로, 고차원(지수 차원) 가정 없이도 GD의 일반화 한계를 명확히 제시한다.
결과적으로, 논문은 (1) 차원과 표본 수가 선형 관계일 때도 ERM이 과적합될 수 있음을, (2) 근사 ERM조차도 동일한 한계에 놓인다는 것을, (3) 제한된 GD가 학습률·시간·표본 수의 특정 스케일링에서 반드시 일반화에 실패한다는 세 가지 주요 메시지를 전달한다. 이는 ERM 기반 이론이 과적합 현상을 완전히 설명하지 못함을 보여주며, 알고리즘적 편향(implicit bias)이나 정규화와 같은 추가 메커니즘이 왜 실제 학습에서 필수적인지를 이론적으로 뒷받침한다.
댓글 및 학술 토론
Loading comments...
의견 남기기