“신뢰구간은 ‘덮는다’ 혹은 ‘덮지 않는다’? – 사후 커버리지 확률을 모델 기반으로 재해석”
📝 Abstract
In Neyman’s original formulation, a 1-alpha confidence interval procedure is justified by its long-run coverage properties, and a single realized interval is to be described only by the slogan that it either covers the parameter or it does not. On this view, post-data probability statements about the coverage of an individual interval are taken to be conceptually out of bounds. In this paper, I present two kinds of arguments against treating that “either-or” reading as the only legitimate interpretation of confidence. The first is informal, via a set of thought experiments in which the same joint probability model is used to compute both forward-looking and backward-looking probabilities for occurred-but-unobserved events. The second is more formal, recasting the standard confidence-interval construction in terms of infinite sequences of trials and their associated 0/1 coverage indicators. In that representation, the design-level coverage probability 1-alpha and the degenerate conditional probabilities given the full data appear simply as different conditioning levels of the same model. I argue that a strict behavioristic reading that privileges only the latter is in tension with the very mathematical machinery used to define long-run error rates. I then sketch an alternative view of confidence as a predictive probability (or forecast) about the coverage indicator, together with a simple normative rule for when intermediate probabilities for single coverage events should be allowed. Keywords: confidence intervals; coverage probability; frequentist inference; single-case probability; predictive probability; Neyman. Disclaimer: The findings and conclusions in this report are those of the author and do not necessarily represent the official position of the Centers for Disease Control and Prevention.
💡 Analysis
**
1. 연구 배경 및 문제 제기
- Neyman‑Frequentist 전통: θ는 고정된 미지수이며, 신뢰구간 L(X)≤θ≤U(X) 의 확률은 데이터 X에만 의존한다. 관측이 끝나면 확률은 0 또는 1이 된다.
- 실제 통계 실무와의 괴리: 의료 진단, 품질 관리, 기계 공정 등에서는 “관측된 결과가 주어졌을 때 사건의 사후 확률”을 자연스럽게 사용한다. 저자는 이러한 실무적 필요와 전통적 해석 사이의 긴장을 강조한다.
2. 사고실험(비공식적 논증)
| 사고실험 | 핵심 내용 | 드러난 모순 |
|---|---|---|
| 의료 진단 | 양성 검사 후 환자가 실제로 질병을 가졌을 확률(PPV)을 계산하지만, “이미 검사가 끝났으니 확률은 0/1”이라는 해석을 적용하면 PPV가 무의미해진다. | 사후 확률을 부정하면 진단 검사의 임상적 가치를 상실한다. |
| 고양이 간식 | 사전 확률(맛 비율, 울음, 낮잠)과 사후 확률(낮잠 관찰 후 맛 추정)을 모두 계산한다. 후향적 확률을 금지하면 모델이 제공하는 유용한 정보가 무시된다. | 모델 전체의 확률 구조를 부분적으로만 사용하게 된다. |
| 초콜릿 트러플 생산 | 설계 단계에서의 결함 확률과 현재 생산 중인 트러플에 대한 “다음 트러플이 올바르게 채워질 확률”을 동시에 고려한다. 후향적 확률만 허용하면 현재 공정 제어에 필요한 정보를 제공하지 못한다. | 실시간 의사결정에 필요한 사후 확률을 배제한다. |
이 세 사례는 동일한 확률 모델이 전향적·후향적 확률을 모두 제공한다는 점을 강조한다. “확률은 오직 설계 단계에만 존재한다”는 주장에 논리적 모순이 있음을 보여준다.
3. 형식적 논증(수학적 근거)
- 무한 시퀀스와 0/1 커버리지 지표: 각 시행 i에 대해 I_i = 1{L(X_i)≤θ≤U(X_i)} 로 정의하고, 전체 시퀀스 {I_i} 를 고려한다.
- 조건화 수준의 차이:
- 설계‑수준: P(I_1=1)=1‑α (전향적, 장기적 오류율).
- 관측‑조건부: P(I_1=1 | X_1=x) = I_1(x) ∈ {0,1} (후향적).
- 동일 모델, 다른 σ‑대수: 두 확률은 같은 확률 측정공간 (Ω,𝔽,P) 위에서 정의되며, 전자는 전체 σ‑대수에 대해, 후자는 관측된 X에 의해 생성된 서브 σ‑대수에 대해 조건화된 것이다. 따라서 “수학적으로 차이가 있다”는 주장은 조건화의 차이에 불과하고, 모델 자체는 동일하게 적용 가능함을 증명한다.
4. 규범적 제안 및 대안적 해석
- 예측 확률(Predictive Probability)으로서의 신뢰
- 신뢰구간을 “다음 시행에서 커버리지 지표 I=1이 될 확률”으로 해석한다. 이는 베이즈 예측분포와 유사하지만, 설계‑수준 오류율을 유지한다.
- 중간 확률 허용 규칙
- 허용 조건: (i) 동일 모델이 사전·사후 모두에 대해 검증된 장기 빈도적 성질을 가지고 있을 때, (ii) 사후 확률이 의사결정에 실질적 가치를 제공할 때.
- 비허용 상황: 모델이 검증되지 않았거나, 사후 확률이 오히려 오해를 불러일으켜 잘못된 결정을 초래할 위험이 클 때.
- 통합 프레임워크
- 설계‑수준 커버리지를 “베이스라인”으로 두고, 관측 후에는 조건부 예측분포를 이용해 개별 구간에 대한 사후 확률을 제공한다. 이는 “두 레벨의 확률을 동시에 활용”하는 실용적 접근이다.
5. 비판 및 향후 연구 과제
- 모델 의존성: 사후 확률을 허용하려면 모델이 실제 데이터 생성 과정을 정확히 반영해야 한다. 모델 오차가 클 경우, 사후 확률은 오히려 위험한 오판을 초래한다.
- 교육적 함의: 통계 교육에서 “신뢰구간은 사후에 확률을 가질 수 없다”는 절대적 교리를 완화하고, 상황에 따라 예측 확률을 도입하는 교육 커리큘럼이 필요하다.
- 베이즈와의 연결: 저자는 epistemic/ontic 구분을 언급하지만, 베이즈적 사후 확률과 빈도주의적 사후 예측 확률 사이의 정확한 수학적 관계를 더 명확히 할 필요가 있다.
- 다중 비교 및 복합 실험: 무한 시퀀스 모델을 실제 실험(예: 임상시험, 제조 공정)에 적용해, 설계‑수준 오류율과 사후 예측 정확도를 동시에 평가하는 시뮬레이션 연구가 요구된다.
6. 결론
본 논문은 신뢰구간의 사후 커버리지 확률을 완전히 배제하는 전통적 해석이 실제 통계 실무와 수학적 모델링 양쪽에서 불합리함을 보여준다. 동일 확률 모델 안에서 전향적·후향적 확률은 서로 다른 조건화 수준에 불과하므로, 두 레벨을 통합하는 예측 확률 관점을 채택함으로써 설계‑수준 오류 제어와 개별 사례에 대한 실용적 의사결정을 동시에 만족시킬 수 있다. 이는 통계학 이론과 교육, 그리고 다양한 응용 분야에서 중요한 전환점을 제공한다.
**
📄 Content
제르지 네이만이 1937년에 신뢰구간(CI) 이론을 제시했을 때[21]
그는 실무 통계학자들에게 다음과 같은 강력한 해석 지침을 남겼다. θ는 고정된, 알 수 없는 상수라고 가정하므로, 일단 특정 구간이 생성되면 “(P\big(L(X)\le \theta \le U(X)\big))”라는 커버리지 식은 수학적으로 고정된다. 따라서 우리는 그 구간이 θ를 포함했는지, 포함하지 않았는지만 말할 수 있다. 이와 같은 수학적 정당성은 모든 무작위성이 데이터 (X)에만 존재하고, 일단 구체적인 실현 (X=x_i)가 주어지면 위 식은 ({0,1})이라는 퇴화된 값으로 변한다는 사실에 있다. 직관적으로도 이해가 된다. 만약 같은 구간 경계들을 무한히 반복해서 샘플링한다면, 성공 확률(그 설계 하에서)은 원래 구간이 θ를 포함했는지에 따라 0 또는 1이 된다.
이 때문에 실제로 신뢰구간을 확률적으로 해석할 때는 단일 구간의 특성보다는 장기적인 커버리지 특성에 초점을 맞춘다[10,17,27,16]. 이를 어기는 시도는 종종[19] 오류 해석[11] 혹은 추론의 오류[20]로 낙인찍히지만(항상 그런 것은 아니다), 사후에(“데이터 이후”) 구간에 어떤 확률을 부여하고 싶어 하는 자연스러운 충동을 억제하기는 어렵다.
1. “이미 일어난 사건”에 대한 긴장감
신뢰구간에 대한 전통적 해석과 “잘못된” 해석 사이의 긴장은 이미 발생했지만 관측되지 않은 사건에 대한 일반적인 진술로 재구성될 수 있다[25].
- 빈도주의자는 무작위성, 즉 확률이 표본추출 과정에 존재한다고 보고, 표본이 한 번 추출되면 사전 확률(pre‑data)은 ({0,1}) 중 하나로 수축한다. 이는 수학적으로는 옳지만, 실무 통계학자에게는 경고음처럼 들릴 수 있다(실제 통계 실무에서는 거의 무시된다).
예를 들어 의료 진단을 생각해 보자. 환자가 인플루엔자 빠른 진단 검사를 양성했을 때, “그 환자가 실제로 인플루엔자를 가지고 있을 확률은?”이라고 묻는다면, 빈도주의적 해석에 따라 “확률 진술을 할 수 없다”는 결론에 도달한다. 왜냐하면 환자의 실제 질병 상태는 고정된 진리값이며, 표본추출 과정(검사)이 이미 끝났기 때문에 남은 무작위성은 없기 때문이다. 그러나 이런 “또는‑또는” 논리는 진단 검사의 임상적 가치를 완전히 무력화시키고, 양성예측값(PPV)을 추정하려는 역학·통계학자의 노력을 무의미하게 만든다.
2. 철학적 관점
- 빈도주의·성향 이론가는 존재론적(ontic) 관점을 취한다. 즉, 무작위성이 실제 세계에서 어떻게 전개되는지가 중요하고, 우리가 그것을 알든 못 알든 관계없다[12].
- 베이지안은 인식론적(epistemic) 관점을 취한다. 여기서는 확률을 개인의 믿음 정도(credence)와 동일시한다[5,24,12]. 베이지안은 “이미 일어났지만 관측되지 않은 사건”을 자연스럽게 받아들일 수 있지만, 빈도주의자는 관측자(observer)의 역할을 확률 할당에 명시적으로 포함시키지 않기 때문에 어려움을 겪는다(예: [30]).
통계적 추론은 어느 정도 인식론적 요소를 필요로 한다. 완전한 지식이 있다면 추정은 단순히 계산일 뿐이다. 네이만조차도 “θ가 고정이지만 알 수 없는 경우, ‘누가 모르는가?’”라는 질문을 던지며 관측자의 역할을 인정한다. 더 나아가 “우리가 θ를 커버했는지 알 필요가 없는가?”라는 근본적인 물음은 철학적이면서도 통계학적인 문제이며, 확률·과학 철학 문헌에서 광범위하게 논의되었다. 여기서는 그 논의를 요약하지 않는다. 다만, 아래 섹션에서는 빈도주의적 프레임 안에서 이미 일어난 사건을 어떻게 정식으로 다룰 수 있는지를 보여줄 것이다.
3. 네이만 슬로건에 대한 엄격한 해석
본 논문에서는 네이만이 “사후 확률은 허용되지 않는다”는 슬로건을 규범적 규칙으로 받아들인다(많은 교과서·강의가 이를 따르고 있다[2,22,29,10,1,18]). 이 규칙을 고수하면 다른 빈도주의적 확률 사용에 불편하거나 심지어 모순되는 제약이 생긴다.
대안으로 제시하고자 하는 핵심은 장기적인 오류 제어라는 네이만의 유용한 개념은 유지하되, 개별 구간 사건에 대해 사후에 어느 정도 말할 수 있는 여지를 주는 것이다.
논문의 구성
- 제2절 – 세 가지 사고실험을 통해, 빈도주의적 해석을 고수했을 때 발생하는 문제점을 단계적으로 보여준다.
- 제3절 – Kolmogorov식 확률 이론을 이용해, 사전 확률과 사후 확률 사이에 실제 수학적 차이가 없음을 증명하고, 신뢰구간을 예시로 활용한다.
- 제4절 – 앞 절들의 함의를 논의하고, 사후에 중간 확률을 부여할지 여부에 대한 부드러운 규범적 규칙을 제시한다. 또한 “confidence”를 예측 확률 혹은 모델 기반 확률적 예보로 재정의하고, 향후 연구 방향을 제시한다.
사례 1 – 의료 진단
환자가 기침·콧물·열을 호소하며 1일 내에 증상이 나타났다. 발열이 경미해 의사는 감기일 가능성이 높다고 판단했지만, 확실히 확인하기 위해 인플루엔자 급속 항원 검사를 시행한다.
- 검사 성능: 민감도 0.75, 특이도 0.98 (PCR을 기준으로 거의 오류가 없음).
- 양성 결과가 나왔을 때, 의사는 양성예측값(PPV), 즉 (P(D=1\mid T=1))을 계산한다.
- 유병률을 10%라 가정하면 PPV는 약 81%가 된다.
이때 빈도주의적 해석에 따르면, 이미 검사가 시행되고 결과가 고정되었으므로 “환자가 실제로 인플루엔자를 가지고 있을 확률”이라는 사후 확률은 정의될 수 없으며, 환자는 있거나 없거나 하는 이분법적 진술만 가능하다.
하지만 실제 임상에서는 81%라는 모델 기반 확률을 사용해 항바이러스제 처방과 격리 결정을 내린다.
사례 2 – 고양이 Sophie와 간식
Sophie라는 고양이는 간식 상자에서 간식을 하나 뽑는다. 상자에는 해산물 맛이 75%, 닭고기 맛이 25% 들어 있다(각 간식은 고유 ID가 부여되고, 자동 비전 시스템으로 정확히 추적된다).
- 해산물 맛을 먹으면 80% 확률로 푸르고, 닭고기 맛을 먹으면 60% 확률로 푸른다.
- 푸르면 90% 확률로 낮잠을 자고, 10% 확률로 돌아다닌다. 푸르지 않으면 50% 확률로 각각 행동한다.
무조건적(전반적) 확률을 사용하면
[
P(\text{nap}) = 0.75 \times 0.8 \times 0.9 + 0.75 \times 0.8 \times 0.1 + 0.25 \times 0.6 \times 0.5 + \dots = 0.80
]
과 같이 80% 정도가 된다.
조건부(퇴화) 확률을 사용하면 “간식의 맛이 고정돼 있지만 관측되지 않았다”는 전제 하에 두 갈래 확률이 생긴다.
결국 고양이가 실제로 낮잠을 자고 있는 모습을 보았을 때, “간식이 해산물 맛일 확률”은 베이즈 정리를 이용해
[
P(F=\text{sea}\mid \text{nap}) = \frac{0.75 \times 0.8 \times 0.9}{0.80} \approx 0.84
]
가 된다.
이 예시들은 사후 확률이 모델에 의해 정당화될 수 있음을 보여준다. 빈도주의적 관점에서 “관측되지 않은 사건”을 무시하면 모델의 전체 확률 구조를 절반만 사용하는 셈이 된다.
사례 3 – 초콜릿 트러플 생산 라인
한 고급 초콜릿 제조업자는 다음과 같은 자동화 설비를 도입한다.
- 쉘·필러 기계: 쉘은 항상 만들지만, 필러는 10% 확률로 작동하지 않는다. 작동 시 90% 확률로 충전이 완료된다.
- 무게 측정기: 빈 쉘은 가볍다. 하지만 5%의 확률로 가득 찬 트러플을 빈 것으로, 1%의 확률로 빈 트러플을 가득 찬 것으로 오판한다.
- 컨베이어 벨트와 압력 센서(완전 정확) 등으로 구성된다.
현재 트러플이 컨베이어에 올라와 압력 센서가 울렸지만, 무게 측정기가 아직 판정을 내리지 않은 상황을 가정한다.
설계 수준(전반적) 확률을 사용하면
[ P(\text{다음 트러플이 올바르게 충전됨}) = 0.9 \times 0.95 + 0.1 \times 0.01 = 0.9045 ]
이다.실현된 사실(조건부) 확률을 사용하면 “현재 트러플이 이미 충전됐는가?”라는 이분법에 따라 0.905와 0.9라는 두 값이 나온다.
두 확률 모두 모델에 의해 정당화되지만, 사후에 “현재 트러플이 충전됐는가?”라는 단일 사건에 대해 어느 하나만을 선택한다면 모델이 설계 단계에서 제공한 전체적인 사전 확률을 포기하게 된다.
결론적 고찰
위의 세 사례는 실제 통계 실무에서 빈도주의자들이 “이미 일어난 사건에 대해 사후 확률을 부여할 수 없다”는 교과서적 교훈을 어떻게 무시하거나, 혹은 어떻게 모순되는 상황에 처하는지를 보여준다. 네이만의 “either‑or” 슬로건을 문자 그대로 받아들일 경우, 모델이 제공하는 전체 확률 구조와 현실적인 의사결정 요구 사이에 심각한 긴장이 발생한다.
다음 절에서는 이 긴장의 수학적 근원을 탐구하고, Kolmogorov 확률 체계 하에서 사전·사후 확률이 본질적으로 동일한 측정값임을 증명한다. 이를 통해 우리는
- 장기적인 커버리지(1‑α)와 개별 사건에 대한 사후 확률을 동시에 유지할 수 있음을,
- “사후 확률을 부여할지 여부”에 대한 부드러운 규범을 제시함으로써,
- “confidence”를 예측 확률 혹은 모델 기반 확률적 예보로 재정의함으로써
통계적 추론과 실제 의사결정 사이의 간극을 메울 수 있음을 주장한다.
참고문헌 (발췌)
[1] …, [2] …
이 글은 AI가 자동 번역 및 요약한 내용입니다.