베이더 점수 분해의 직관적 재배열
초록
본 논문은 베이더 점수의 Yates 공분산 분해를 세 개의 비음수 항—분산 불일치, 공분산 결핍, 대규모 보정—으로 재배열한다. 이를 통해 완벽한 예측이 만족해야 할 세 가지 조건(분산 일치, 완전 양의 상관, 평균 일치)을 명확히 제시하고, 각 항이 양수일 경우 베이더 점수가 증가함을 보인다.
상세 분석
Yates 분해는 기존에 베이더 점수를 “분산 항 – 편향 항” 형태로 표현하고, 이를 다시 공분산과 평균 차이로 풀어냈다. 그러나 원래 식에서는 분산 항이 최소화되는 것이 반드시 전체 점수 최소화와 연결되지 않아 해석이 어려웠다. 저자는 이 식을 대수적으로 재배열하여
BS = Var(p) − Var(o) + 2 Cov(p,o) + (μ_p − μ_o)² 형태로 만든다. 여기서 첫 번째 항은 예측 확률의 분산과 실제 사건의 분산 차이를 나타내는 “분산 불일치”이며, 두 번째 항은 공분산이 실제보다 작을 때 발생하는 “공분산 결핍”이다. 마지막 항은 전통적인 “보정‑in‑the‑large”와 동일하게 평균 차이의 제곱이다.
세 항 모두 제곱 형태이거나 Cauchy‑Schwarz 부등식에 의해 비음수임을 증명한다. 따라서 베이더 점수가 0이 되려면 세 항이 모두 0이어야 하고, 이는 (i) Var(p)=Var(o), (ii) Cov(p,o)=√Var(p)Var(o) 즉 완전 양의 상관, (iii) μ_p=μ_o라는 세 조건을 동시에 만족해야 함을 의미한다. 특히 공분산 결핍 항은 Pearson 상관계수 ρ(p,o)로 다시 쓰일 수 있어, ρ=1일 때만 사라진다. 이는 Yates가 제시한 “예측 분산을 최소화하라”는 조언을 정교하게 수정한다; 실제로는 예측 분산을 최소화하는 것이 아니라 관측 분산에 맞추고, 동시에 상관을 최대화해야 한다는 것이다.
이러한 재배열은 직관적으로 “예측은 변동성, 상관성, 평균” 세 축을 동시에 맞춰야 최적임을 보여준다. 또한 기존의 URR(불확실성‑해상도‑신뢰도)이나 RDC(재정밀‑판별‑정확도)와 같은 다중 분해와 비교했을 때, 각 항이 독립적으로 비음수이며 해석이 명확하다는 장점이 있다. 실무에서는 예측 모델의 성능을 진단할 때, 각각의 항을 별도로 추정함으로써 어느 부분이 부족한지 구체적으로 파악할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기