샘플 선택 편향 보정 이론과 분포 안정성

본 논문은 머신러닝에서 흔히 발생하는 샘플 선택 편향(sample selection bias) 문제를 이론적으로 다루며, 특히 가중치 재조정(weighted re‑weighting) 기법의 정확도에 미치는 영향을 분석한다. 먼저, 편향된 훈련 샘플 S가 실제 테스트 분포 D와 다른 분포 D′에서 추출된 상황을 설정하고, 각 훈련 샘플에 w_i = Pr_D(z_i)/Pr_{D′}(z_i) 라는 중요 가중치를 부여하면 기대 손실이 실제 손실과 일치한다는 기본 정리를 제시한다(Prop. 1). 그러나 실제로는 이 확률을 유한 데이터로부터 추정해야 하므로 추정 오차가 발생한다. 이를 정량화하기 위해 저자들은 기존의 점 기반 안정성(point‑based stability)을 확장한 ‘분포 안정성(Distributional Stability)’ 개념을 도입한다. 정의에 따르면, 학습 알고리즘 L이 두 가중치 분포 W와 W′ 사이의 발산 d(W,W′)에 대해 β·d(W,W′) 이하의 손실 변동을 보이면, L은 β‑stable 하다고 한다. 다음으로, 커널 기반 정규화 알고리즘(예: 서포트 벡터 회귀(SVR), 커널 릿지 회귀)들이 l₁ 및 l₂ 거리 측정에 대해 β‑stable 임을 증명한다. 핵심은 Bregman 발산을 이용해 가중치 변화가 가설 함수 차이 Δh에 미치는 영향을 상한하고, 이를 통해 β를 σ, κ, λ와 같은 문제 파라미터의 함수로 명시한다(Theorem 1). 여기서 σ는 손실 함수의 admissibility 상수, κ는 커널의 최대 자기 내적, λ는 정규화 파라미터이다. 결과적으로, β ≤ σ²κ²/(2λ) (l₁)와 β ≤ σ²κ/(λ√{λ_max(K)}) (l₂) 라는 구체적인 경계가 도출된다. 이론적 기반 위에 두 가지 가중치 추정 기법을 적용한다. 첫 번째는 클러스터 기반 추정으로, 데이터 공간을 K개의 클러스터로 양자화하고 각 클러스터 내 샘플 비율을 이용해 Pr

샘플 선택 편향 보정 이론과 분포 안정성

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기