고정 입력 분포에서 이진 출력 신경망의 샘플 복잡도
초록
본 논문은 Sontag(1992)이 제시한 시그모이드 인공신경망이 순수 원자적 입력 분포 하에서 원하는 오류율을 달성하기 위해 필요한 학습 샘플 수가 임의의 성장률을 가질 수 있음을 보인다. 또한 비원자적 부분을 포함하는 어떠한 입력 분포에서도 해당 네트워크는 Glivenko‑Cantelli 성질을 만족하지 못함을 확인한다.
상세 분석
Sontag(1992)의 시그모이드 ANN은 무한 VC 차원을 갖는 대표적인 예시로, 이론적 학습 가능성의 한계를 탐구하는 데 자주 인용된다. 저자들은 이 네트워크를 고정된 입력 분포, 특히 순수 원자적(atomic) 분포에 제한함으로써 샘플 복잡도에 대한 정밀한 상한을 도출한다. 핵심 아이디어는 입력 공간을 유한 개의 원자점으로만 구성하고, 각 원자점에 할당되는 확률 질량을 조절함으로써 학습 알고리즘이 구분해야 할 함수 클래스의 복잡성을 인위적으로 확대시키는 것이다. 구체적으로, 임의의 증가 함수 f (n) 에 대해, 원자점들의 질량을 적절히 설계하면, 오류율 ε 를 보장하기 위해 필요한 최소 샘플 수 m(ε) 가 f (m) 보다 크게 된다. 이는 “샘플 복잡도는 입력 분포에 강하게 의존한다”는 직관을 정량화한 결과이며, 기존에 알려진 다항식 혹은 지수적 상한을 훨씬 초월하는 성장률도 구현 가능함을 보여준다. 특히 저자들은 초지수적, 비재귀적 함수까지도 샘플 복잡도 상한으로 만들 수 있음을 증명한다. 이때 사용된 구성은 원자점들의 질량을 급격히 감소시키는 방식으로, 학습자가 드물게 나타나는 사례를 충분히 관찰하지 못하면 오류가 크게 남게 된다.
또한 논문은 Glivenko‑Cantelli 성질을 검토한다. Glivenko‑Cantelli 클래스는 경험분포가 실제 분포에 균등하게 수렴하는 특성을 의미한다. 저자들은 Sontag 네트워크가 비원자적(continuous) 부분을 포함하는 어떤 입력 분포라도, 경험적 위험과 실제 위험 사이의 수렴을 보장하지 못한다는 사실을 보인다. 이는 네트워크가 무한히 많은 결정 경계를 만들 수 있어, 경험적 분포가 실제 분포를 충분히 근사하더라도 특정 영역에서 과도한 진동을 일으키기 때문이다. 따라서 이 네트워크는 일반적인 PAC 학습 프레임워크에서 Glivenko‑Cantelli 가정이 깨지는 대표적인 반례가 된다.
이러한 결과는 두 가지 중요한 시사점을 제공한다. 첫째, 샘플 복잡도 분석에서 입력 분포의 구조적 특성을 무시하면 과도하게 낙관적인 일반화 경계를 얻을 위험이 있다. 둘째, 무한 VC 차원을 가진 모델이라 하더라도 특정 분포 하에서는 학습이 불가능에 가깝게 될 수 있음을 보여, 모델 선택 시 분포 의존성을 명시적으로 고려해야 함을 강조한다.
댓글 및 학술 토론
Loading comments...
의견 남기기