모델 근사와 p‑값: 통계적 해석의 새로운 시각

본 논문은 통계 모델을 “근사”라는 관점에서 재조명하고, p‑값을 모델과 데이터 사이의 적합도 측정 도구로 재해석한다. 서두에서 저자는 p‑값이 과학 전반에 널리 사용되지만, 실제로는 남용 사례가 빈번함을 지적한다. 특히 American Statistical Association이 발표한 p‑값에 관한 성명서와 그 부속 자료를 인용하며, p‑값이 “모델 전체를 검증한다”는 주장에 논리적 모순이 있음을 강조한다. 다음으로 모델의 두 가지 의미를 구분한다. 첫 번째는 매개변수 공간 전체를 포괄하는 확률분포족이며, 두 번째는 단일 확률측도 자체다. 저자는 현재 통계 실무가 두 의미를 혼용하면서 발생하는 혼란을 비판한다. 특히, 전통적인 검정은 H₀: μ=μ₀와 같은 단일 가설에 대한 통계량을 사용하므로, 전체 모델(분포족)의 적합성을 검증한다는 주장은 사실과 다르다. 이를 보완하기 위해 “근사 모델(adequate approximation)” 개념을 도입한다. 모델 P가 데이터 xₙ에 대해 적절한 근사라면, P에 의해 생성된 전형적인 표본 Xₙ(P)가 xₙ과 “닮았다”는 의미다. 여기서 “닮았다”는 정량적 기준은 상황에 따라 달라지며, 평균, 분산, 극값, 경험분포와 같은 여러 통계량을 활용할 수 있다. 근사 영역(approximation region)의 수학적 정의는 다음과 같다. A(xₙ,α,𝒫)= {P∈𝒫 : xₙ∈Eₙ(P)} , where Eₙ(P)⊂ℝⁿ satisfies P(Xₙ(P)∈Eₙ(P))=α. 즉, 각 모델 P에 대해 전형적인 표본이 차지하는 부분집합 Eₙ(P)를 정하고, 그 확률이 α가 되도록 한다. 이 정의는 데이터가 실제로 어떤 모델에서 생성됐는지 가정하지 않으며, 오히려 “데이터가 어느 모델에 충분히 가까운가”를 평가한다. 정규분포(N(μ,σ²))를 예시로 들면, 네 가지 통계량 T₁…T₄를 사용한다. T₁: √n·|mean(yₙ)|, T₂: Σ yᵢ² (분산), T₃: max|yᵢ| (극값), T₄: Kuiper 거리 d_KU(P(yₙ),N(0,1)). 각 통계량에 대해 α̃‑분위수 qᵢ(α̃)를 구하고, (μ,σ) 쌍이 네 조건을 동시에 만족하면 근사 영역에 포함한다. α̃는 전체 α와 일치하도록 조정되며, 초기값 (3+α)/4 로 시작해 시뮬레이션을 통해 최적화한다. 다중 p‑값 개념도 도입한다. 각 통계량 Tᵢ에 대해 pᵢ(μ,σ)=1−P(Tᵢ(Yₙ)≤Tᵢ(yₙ)) (T₂는 양측 검정) 로 정의하고, 최소값 p(μ,σ)=minᵢ pᵢ(μ,σ) 가 1−α* 이상일 때만 (μ,σ) 를 영역에 포함한다. 이는 전통적인 단일 p‑값과 달리 파라미터 전체에 대한 적합성을 동시에 평가한다. 근사 영역과 전통적 신뢰구간의 차이점도 상세히 논의한다. 신뢰구간은 “진정한 μ₀가 존재한다”는 전제 하에 구성되며, 모델이 실제 데이터 생성 과정에 존재하는지 여부를 검증하지 않는다. 반면 근사 영역은 “어떤 μ,σ 조합이 데이터와 충분히 닮았는가”를 판단한다. 데이터가 비정규적이 되면 근사 영역은 점점 축소되고, 최종적으로는 공집합이 될 수 있다. 이는 모델이 더 이상 적합하지 않음을 명시적으로 보여준다. 논문은 또한 빈 근사 영역이 실제로 발생할 확률을 시뮬레이션으로 제시한다. n=50, α≈0.92 설정에서 약 0.7%의 경우에 영역이 비게 된다. 이는 전통적 검정에서 “귀무가설을 기각하지 못한다”는 결과와는 달리, 모델 자체가 데이터와 부합하지 않음을 의미한다. 마지막으로, 저자는 이러한 접근이 p‑값 남용을 방지하고, 모델 검증을 보다 엄격하고 투명하게 만들 수 있다고 주장한다. 모델을 “근사”로 보고, 다중 통계량 기반의 근사 영역을 활용함으로써, 통계적 추론이 데이터와 모델 사이의 실제 차이를 정량화하는 도구로서 보다 신뢰성을 갖게 된다.

모델 근사와 p‑값: 통계적 해석의 새로운 시각

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기