머신러닝 입문 통계와 스펙트럼 PAC 학습

초록

본 강의노트는 머신러닝의 기초 이론을 통계적 추론, 대수·스펙트럼 방법, 그리고 PAC 학습 이론의 세 축으로 정리한다. 베이즈 정리와 EM 알고리즘, 최대우도·최대엔트로피 이중성 등을 통해 확률 모델링의 핵심을 설명하고, PCA·LDA·CCA·클러스터링 등 선형 대수 기반 차원 축소와 군집화 기법을 다룬다. 마지막으로 학습 이론의 형식적 모델, VC 차원, 이중 샘플링 정리를 소개하여 일반화 능력의 이론적 근거를 제공한다.

상세 분석

이 노트는 머신러닝을 세 가지 주요 흐름으로 구분한다. 첫 번째는 통계적 추론으로, 베이즈 정리를 기반으로 사후 확률을 계산하고, 관측 데이터가 불완전하거나 숨겨진 변수(잠재 변수)를 포함할 때 EM(Expectation‑Maximization) 알고리즘을 통해 파라미터를 추정한다. 특히 EM은 E‑step에서 현재 파라미터 하에 잠재 변수의 기대값을 구하고, M‑step에서 그 기대값을 이용해 로그우도 함수를 최대화하는 반복 과정을 명확히 제시한다. 이어서 최대우도 추정(ML)과 최대엔트로피(MaxEnt) 원리 사이의 이중성을 논한다. ML은 관측 데이터에 대한 확률을 직접 최대화하는 반면, MaxEnt는 주어진 제약 조건 하에서 엔트로피를 최대화함으로써 가장 불확실한 분포를 선택한다. 두 접근법은 라그랑주 승수와 쌍대 문제를 통해 수학적으로 동등함을 보이며, 이는 모델 선택과 정규화에 중요한 통찰을 제공한다. 두 번째 흐름은 대수·스펙트럼 방법이다. 여기서는 데이터 행렬의 고유값·특잇값 분해를 활용한 차원 축소 기법을 중점적으로 다룬다. PCA는 공분산 행렬의 주성분을 찾아 데이터의 분산을 최대 보존하는 저차원 표현을 제공하고, LDA는 클래스 간 분산을 최대화하고 클래스 내 분산을 최소화하는 판별 축을 찾는다. CCA는 두 개의 다변량 데이터 집합 사이의 상관 구조를 탐색하여 공통된 잠재 요인을 추출한다. 클러스터링 파트에서는 K‑means, 계층적 군집화, 스펙트럴 클러스터링 등을 소개하며, 거리 측정과 군집 중심 업데이트, 라플라시안 행렬 기반의 그래프 분할 원리를 설명한다. 세 번째 흐름은 PAC(Probably Approximately Correct) 학습 이론이다. 여기서는 학습 문제를 형식화하여, 주어진 오류 허용도 ε와 신뢰도 δ에 대해 제한된 샘플 수 n이 존재함을 보인다. 핵심 개념인 VC 차원은 가설 클래스가 얼마나 복잡한지를 정량화하며, VC 차원이 d인 경우 샘플 복잡도는 O((d+log(1/δ))/ε)로 추정된다. 이중 샘플링 정리는 두 개의 독립적인 샘플 집합을 이용해 일반화 오차를 상한하는 방법으로, 실제 알고리즘 설계 시 과적합을 방지하는 이론적 근거를 제공한다. 전체적으로 이 노트는 통계적 모델링, 선형 대수 기반 데이터 변환, 그리고 학습 이론의 세 축을 통합적으로 제시함으로써, 머신러닝을 처음 접하는 학생이 이론적 토대를 탄탄히 다질 수 있도록 설계되었다.