낮은 밀도 분리기 학습

본 논문은 알려지지 않은 확률분포에서 밀도가 가장 낮은 동차 초평면을 찾는 새로운 비지도 학습 문제를 정의하고, 두 가지 자연스러운 알고리즘(버킷 방식과 하드‑마진 방식)의 보편적 일관성을 증명한다. 또한 어떤 분포에서도 일정한 수렴 속도를 보장하는 알고리즘은 존재하지 않음을 부정적 결과로 제시한다.

저자: Shai Ben-David, Tyler Lu, David Pal

본 논문은 확률분포의 연속적인 밀도 함수가 주어졌을 때, 그 분포를 가장 적게 관통하는 동차 초평면(또는 1차원에서는 점)을 찾는 문제를 “낮은 밀도 분리기 학습(Low‑Density Separator Learning)”이라 정의한다. 이 문제는 반지도 학습에서 라벨이 없는 데이터가 클래스 경계와 낮은 밀도 영역을 공유한다는 가정과, 클러스터링 안정성 분석에서 클러스터 경계가 낮은 밀도에 위치한다는 관찰에 직접적으로 연결된다. **문제 정의 및 평가 기준** - 데이터는 ℝᵈ(특히 단위 구) 위에서 i.i.d. 샘플 S를 통해 관측된다. - 초평면 h(w)={x∈ℝᵈ : wᵀx=0} (‖w‖₂=1) 에 대해 밀도 f(w)=∫_{h(w)} f(x)dx 를 정의한다. - 목표는 f(w) 를 최소화하는 w* (유일성 가정) 를 추정하는 알고리즘 L(S)이다. - 두 가지 성공 기준을 제시한다. (1) **일관성(Consistency)**: 샘플 크기 m→∞ 시, L(S) 가 w*에 확률적으로 수렴한다. (2) **균일 수렴(Uniform Convergence)**: 모든 분포 f∈F에 대해 고정된 샘플 크기 함수 m(ε,δ)가 존재해, ε,δ에 대해 Pr

낮은 밀도 분리기 학습

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기