f다이버전스 추정과 반모수 밀도비 모델을 활용한 두 표본 동질성 검정
초록
본 논문은 두 확률밀도 함수의 비율인 밀도비를 반모수적으로 추정하고, 이를 이용해 f다이버전스를 추정한다. 추정된 f다이버전스를 검정통계량으로 사용해 두 표본이 동일한 분포를 갖는지 검정하는 방법을 제안하고, asymptotic variance가 최소가 되도록 최적 추정량을 도출한다. 또한 기존 경험적 가능도 기반 점수검정과의 관계를 분석하고, 시뮬레이션을 통해 이론적 결과의 유효성을 확인한다.
상세 분석
이 연구는 밀도비 모델을 반모수적 프레임워크 안에서 다루면서, f다이버전스라는 일반화된 거리 척도를 효율적으로 추정하는 새로운 방법론을 제시한다. 먼저, 두 확률밀도 p₁(x)와 p₂(x)의 비율 r(x)=p₁(x)/p₂(x)를 파라메트릭 형태 r(x;θ)로 가정하고, θ를 최소제곱 혹은 최대우도와 유사한 방법으로 추정한다. 여기서 핵심은 r(x;θ) 자체를 직접 추정함으로써, 로그밀도비와 같은 복잡한 변환 없이도 f다이버전스 D_f(p₁‖p₂)=∫p₂(x)f(r(x))dx를 근사할 수 있다는 점이다. 저자들은 f함수의 미분가능성 및 볼록성을 이용해, 추정된 밀도비 \hat r(x) 를 f′(\hat r(x))와 결합한 형태의 플러그인 추정량을 정의하고, 이 추정량의 asymptotic variance를 일반적인 플러그인 방식과 비교하였다. 그 결과, 특정 가중치 함수를 선택하면 variance가 최소화되는 최적 추정량을 얻을 수 있음을 증명한다.
또한, 제안된 검정통계량은 기존 경험적 가능도(empirical likelihood, EL) 기반 점수검정과 수학적으로 동등함을 보인다. EL 점수검정은 제한조건을 만족하는 확률질량을 최적화하는 과정에서 라그랑주 승수를 도입하는데, 이 승수와 θ̂ 사이의 일대일 대응 관계를 통해 두 검정이 동일한 1차 근사식을 공유함을 확인한다. 따라서 제안 방법은 EL 검정의 강건성을 유지하면서도 계산 복잡도를 크게 낮출 수 있다.
수치 실험에서는 다양한 f함수(예: Kullback‑Leibler, Hellinger, χ²)와 서로 다른 샘플 크기, 차원에 대해 시뮬레이션을 수행하였다. 결과는 제안된 최적 추정량이 실제 평균제곱오차와 검정의 제1종 오류율 면에서 기존 방법보다 우수함을 보여준다. 특히, 표본이 작을 때도 asymptotic 이론이 잘 근사됨을 확인함으로써 실무 적용 가능성을 높였다.
댓글 및 학술 토론
Loading comments...
의견 남기기