모든 계산 가능한 분류기의 통계적 학습 가능성과 샘플 복잡도 한계

본 논문은 전체 계산 가능한 라벨링 함수 집합을 가설공간으로 삼아 PAC 학습이 가능함을 보이면서, 어떤 계산 가능한 학습 알고리즘도 분포에 독립적인 샘플 복잡도 상한을 가질 수 없음을 증명한다. 비계산적 학습자는 정지 오라클을 이용해 유한한 상한을 얻을 수 있음을 보여준다.

저자: David Soloveichik

본 논문은 통계적 학습 이론의 전통적인 전제인 유한 VC 차원을 갖는 제한된 가설공간을 넘어, 모든 계산 가능한 라벨링 함수(총재귀 함수)를 포함하는 보편적인 가설공간을 고려한다. 이러한 무한 가설공간에서는 사전적인(분포와 무관한) 샘플 복잡도 상한을 정의할 수 없으며, 따라서 학습 알고리즘이 언제 충분한 샘플을 확보했는지를 스스로 판단하도록 설계한다. 1. **문제 설정** - 샘플 공간 X는 모든 유한 이진 문자열 {0,1}* 로 정의한다. - 개념 공간 C는 모든 총재귀 함수 X→{0,1}이며, 이는 실제로 학습자가 마주할 수 있는 모든 라벨링을 포함한다. - 가설공간 H는 모든 부분재귀 함수 X→{0,1,⊥} 로, ⊥는 계산이 멈추지 않음을 의미한다. - 학습자는 δ와 ε를 입력받아, 확률 1‑δ 안에 오류율 ε 미만인 가설을 반환해야 한다. 2. **계산 가능한 보편 학습자 존재 증명 (Theorem 2)** - H를 사전순으로 열거한 뒤, 각 가설 h_i에 대해 필요 샘플 수 m(i)=⌈(2·ln i+ln(1/δ)+ln(π²/6))/ε⌉를 정의한다. - dovetailing 기법으로 무한히 많은 스레드를 동시에 실행한다. 스레드 i는 연속적으로 샘플 x₁,…,x_{m(i)}를 받아 h_i가 이들에 대해 정확히 일치하는지 검사한다. 일치하면 해당 스레드가 종료하고 h_i를 반환한다. - Lemma 3에 의해, 오류율이 ε를 초과하는 가설이 m(i)개의 샘플을 모두 통과할 확률은 ≤δ/i²이며, 전체 합은 δ 이하가 된다. 따라서 1‑δ 확률로 반환된 가설은 목표 개념과 ε 이하의 차이를 가진다. - C⊂H이므로 반드시 어떤 h_i가 목표 개념과 동일하고, 알고리즘은 반드시 종료한다. 3. **비계산적 학습자와 정지 오라클 (Theorem 4)** - 정지 오라클을 이용하면 각 h_i가 입력 x에 대해 정지하는지를 즉시 알 수 있다. 따라서 알고리즘은 정지 여부에 따라 가설을 미리 배제하고, 목표 가설 h_*가 위치한 인덱스 i_*만큼의 샘플을 요구한다. - 이 경우 샘플 복잡도는 m(i_*)=⌈(2·ln i_*+ln(1/δ)+ln(π²/6))/ε⌉ 로 명시적으로 제한될 수 있다. 즉, 분포에 독립적인 상한이 존재한다. 4. **계산 가능한 학습자의 샘플 복잡도 하한 부정 (Theorem 5)** - 임의의 계산 가능한 학습자 A와 임의의 함수 m(c,δ,ε) 가정하에, 목표 개념 c와 분포 D를 적절히 설계하면 A가 m(c,δ,ε)보다 더 많은 샘플을 요구하도록 만들 수 있다. - 핵심 아이디어는 목표 개념이 학습자의 실행 과정을 시뮬레이션하면서, 학습자가 아직 확인하지 않은 가설에 대해 “정지하지 않는다”는 정보를 제공하는 것이다. 이렇게 하면 학습자는 계속해서 새로운 가설을 시험해야 하고, 결국 샘플 수가 임의로 크게 늘어난다. - Lemma 6은 고정된 샘플 수 m보다 큰 샘플을 요구할 확률이 1‑2·d(δ+(1‑δ)ε)·d^{‑m} 로, d가 충분히 크면 거의 확실히 발생함을 보인다. - 따라서 어떤 계산 가능한 학습자도 목표 개념에 대해 분포에 독립적인 유한 샘플 복잡도 상한을 가질 수 없으며, 샘플 효율성은 계산 가능성 제약에 의해 제한된다. 5. **의의와 향후 연구** - 무한 VC 차원을 가진 가설공간에서도 PAC 학습 자체는 가능하지만, 계산 가능한 알고리즘은 통계적 이유가 아니라 계산적 이유 때문에 “샘플을 낭비”한다는 점을 명확히 한다. - 이는 기존 학습 이론에서 종종 간과되는 계산 복잡도와 샘플 복잡도 사이의 근본적인 트레이드오프를 강조한다. - 향후 연구는 제한된 계산 자원(시간, 메모리) 하에서 샘플 효율성을 개선할 수 있는 구조적 가설 계층이나, 부분적으로 제한된 계산 모델(예: 제한된 프로그램 길이)에서의 보편 학습 가능성을 탐구할 여지를 남긴다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기