인과확률(Probabilities of Causation) 표본 크기 추정의 새로운 패러다임: 델타‑방법 기반 일반 프레임워크

읽는 시간: 6 분
...

📝 Abstract

Probabilities of causation (PoCs), such as the probability of necessity and sufficiency (PNS), are important tools for decision making but are generally not point identifiable. Existing work has derived bounds for these quantities using combinations of experimental and observational data. However, there is very limited research on sample size analysis, namely, how many experimental and observational samples are required to achieve a desired margin of error. In this paper, we propose a general sample size framework based on the delta method. Our approach applies to settings in which the target bounds of PoCs can be expressed as finite minima or maxima of linear combinations of experimental and observational probabilities. Through simulation studies, we demonstrate that the proposed sample size calculations lead to stable estimation of these bounds.

💡 Analysis

**

1. 연구 배경 및 필요성

  • PoC의 비식별성: Tian & Pearl(2000) 등은 PoC를 실험·관찰 확률의 조합으로 구간만 제공한다는 점을 강조했으며, 실제 의사결정에서는 이 구간의 정밀도가 핵심이다.
  • 표본 크기 연구 부재: Li et al.(2022)는 PNS 구간에 한정된 표본 크기 분석을 수행했지만, 일반적인 PoC 구간(PNS, PN, PS, 선형 결합 등)에는 적용되지 않는다.

2. 핵심 아이디어

  • 구간 표현의 일반화: 대부분의 PoC 구간은
    \

📄 Content

인과 확률(PoC, Probabilities of Causation) 은 마케팅, 법률, 사회과학, 보건과학 등 실제 현장에서 널리 활용됩니다. 특히 어떤 행동이 결과를 일으켰는지 여부가 의사결정에 직접적인 영향을 미칠 때 그 중요성이 강조됩니다. 예를 들어, Li와 Pearl(2022)은 PoC들의 선형 결합으로 구성된 “benefit function”(이익 함수)을 제안했으며, 이는 특정 특성을 가진 개인을 선택했을 때 얻는 이득 혹은 비용을 나타내어 목표 행동을 가장 잘 보일 가능성이 높은 대상을 찾는 데 사용됩니다. Stott 등(2004)은 기후 사건 할당에 PoC를 적용해 인간의 영향이 극한 사건 위험을 얼마나 변화시키는지를 정량화했습니다. Mueller와 Pearl(2023)은 PoC가 개인화된 의사결정에 활용될 수 있음을 주장했으며, Li 등(2020)은 PoC가 일부 머신러닝 방법의 정확도를 향상시키는 데 도움이 될 수 있음을 발견했습니다.

추가적인 가정이 없을 경우 PoC는 일반적으로 식별 가능하지 않으므로, 점 추정값 대신 구간(bound) 으로 다루는 경우가 많습니다. 구조인과모델(SCM, Structural Causal Model)을 이용해 Pearl(1999)은 세 가지 이진 PoC, 즉 PNS(necessity and sufficiency), PN(necessity), PS(sufficiency) 를 정의했습니다. Tian과 Pearl(2000)은 실험적 정보와 관찰적 정보를 모두 활용해 이들 양에 대한 구간을 도출했으며, 이후 Li와 Pearl(2019, 2024)이 이를 엄밀히 증명했습니다. 여러 연구에서는 이러한 구간을 더 촘촘히 만드는 방법을 탐구했습니다. 예를 들어, Mueller 등(2021)은 공변량과 인과 구조를 이용해 PNS 구간을 좁혔고, Dawid 등(2017)은 공변량을 활용해 PN 구간을 축소했습니다.

대부분의 기존 연구는 실험 표본과 관찰 표본이 충분히 크다는 전제 하에 필요한 확률들을 정확히 추정할 수 있다고 가정합니다. 그러나 표본 크기를 어떻게 설정해야 추정된 구간이 원하는 정밀도를 만족하는가에 대한 연구는 거의 없습니다. 이 공백은 이론을 실제 적용에 옮기는 데 큰 제약이 됩니다. Li 등(2022)은 이 문제를 다루었지만, PNS 구간의 특수한 경우에만 초점을 맞추었습니다. 현재까지 일반적인 PoC 구간에 대해 목표 오차 수준과 필요한 실험·관찰 표본 크기를 연결해 주는 통합된 프레임워크는 존재하지 않습니다.

본 논문에서는 PoC 구간 추정을 위한 적절한 표본 크기를 일반적인 관점에서 연구합니다. 핵심 아이디어는 많은 샤프 구간이 다음과 같은 형태로 표현될 수 있다는 점입니다.

  • “관찰 확률” (P(x,y)) 와 “실험 확률” (P(y\mid do(x))) 등 유한한 확률 집합을 입력으로 하는 유한 개수의 명시적 함수들의 최소(min) 혹은 최대(max) 로 나타낼 수 있다.

예를 들어 PNS 구간의 구성 요소는 보통 이러한 확률들의 선형 형태이며, PN·PS 구간은 비율(ratio) 형태를 가집니다. 분모가 0에 가까워지지 않는다는 약한 정규성 가정 하에, 구간을 구성하는 각 요소는 기본 확률 벡터에 대한 부드러운(smooth) 변환입니다. 그러나 전체 구간은 최소·최대 연산에 의해 비부드러울(non‑smooth) 수 있습니다. 즉, 구성 요소는 부드러워도 구간 자체는 비부드러울 수 있다는 점이 두 경우에 서로 다른 점근적 거동을 야기합니다. 본 연구는 이러한 차이를 모두 포괄하도록 설계되었습니다.


주요 기여

  1. 일반적인 표본 크기 프레임워크를 제시한다.

    • 부드러운 구간 끝점(하한·상한)에는 다변량 델타법(multivariate delta method) 을 이용해 분산을 근사한다.
    • 비부드러운 경우에는 방향성 델타법(directional delta method) 을 수치적으로 구현한 Fang & Santos(2019) 방식을 적용한다.
  2. 점근적 결과는 구간 끝점이 유한 개의 최소·최대 로 표현될 수 있는 경우에 언제든 적용 가능하다. 이는 기존 PoC 문헌에 등장하는 대부분의 구간 형태를 포함하며, PoC의 선형 결합과 같은 다른 유계 인과량에도 확장된다.

  3. 시뮬레이션을 통해 제안된 표본 크기가 실제로 안정적이고 충분함을 확인하였다. 또한 기존 문헌에서 제시된 보수적인 표본 크기와 비교했을 때 훨씬 적은 표본으로도 목표 오차를 달성함을 보여준다.


1. 이진 인과 확률의 정의 (Tian & Pearl, 2000)

다음은 구조인과모델(SCM)반사실(counterfactual) 프레임워크에 기반한 정의이다. (Y_x = y) 라는 반사실 명제는 “(X) 를 (x) 로 설정하면 변수 (Y) 가 값 (y) 를 취한다”는 의미이다. 논문 전체에서 (y_x) 은 사건 (Y_x = y) 를, (y_{x’}) 은 (Y_{x’} = y) 를, (y’x) 은 (Y_x = y’) 를, (y’{x’}) 은 (Y_{x’} = y’) 를 각각 나타낸다. 실험적 정보는 (P(y_x)) 와 같은 인과 확률로 요약되고, 관찰적 정보는 (P(x,y)) 와 같은 결합분포로 요약된다. 여기서 (X) 는 처치 변수, (Y) 는 결과 변수를 의미한다.

세 가지 이진 인과 확률에 대해, (X) 와 (Y) 가 각각 두 값(참/거짓)만을 가질 때 다음과 같이 정의한다.

  • 정의 1 (Probability of Necessity, PN)
    [ PN = P(Y_{x’} = y’ \mid X = x, Y = y) \tag{1} ]

  • 정의 2 (Probability of Sufficiency, PS)
    [ PS = P(Y_{x} = y \mid X = x’, Y = y’) \tag{2} ]

  • 정의 3 (Probability of Necessity and Sufficiency, PNS)
    [ PNS = P(Y_{x} = y, Y_{x’} = y’ ) \tag{3} ]


2. Tian & Pearl(2000)의 샤프 구간

실험적·관찰적 데이터를 결합해 얻을 수 있는 샤프(bound) 구간은 다음과 같다( Balke, 1995 의 프로그램을 이용해 계산).

[ \begin{aligned} &0,; P(y_x)-P(y_{x’}),; P(y)-P(y_{x’}),; P(y_x)-P(y) \ &\quad\le; PN ;\le; \min{1,; P(y’{x’})-P(x’,y’)} \tag{4}\[4pt] &0,; P(y_x)-P(y),; P(y’{x’})-P(x’,y’) \ &\quad\le; PS ;\le; \min{1,; P(y_x)-P(x,y)} \tag{5}\[4pt] &\max{0,; P(y_x)-P(y_{x’}),; P(y)-P(y_{x’}),; P(y_x)-P(y)} \ &\quad\le; PNS ;\le; \min{P(y_x),; P(y_{x’}),; P(x,y)+P(x’,y’),; P(y_x)-P(y_{x’})+P(x,y’)+P(x’,y)} \tag{6} \end{aligned} ]

여기서 (\theta) 는 필요한 모든 실험·관찰 확률을 모아 놓은 파라미터 벡터이다. 예를 들어 (4)의 상한을 다룰 때는

[ \theta = \bigl(P(y_x),, P(y_{x’}),, P(x,y),, P(x’,y’),, P(x,y’),, P(x’,y)\bigr)^{\top} \tag{7} ]

와 같이 정의한다.


3. 구간의 조각별(piecewise) 선형·분수 형태 (Lemma 1)

Lemma 1 은 다음을 주장한다.

구조인과모델이 유한한 이산 변수들로 구성되고, (X) 와 (Y) 가 모두 이진일 때, 각 인과 확률 (Q\in{PNS,PN,PS}) 의 샤프 상·하한 (U_Q(\theta), L_Q(\theta)) 은
[ U_Q(\theta)=\max_{j=1,\dots,J}\frac{a_j^{\top}\theta+b_j}{h_Q(\theta)},\qquad L_Q(\theta)=\min_{k=1,\dots,K}\frac{c_k^{\top}\theta+d_k}{h_Q(\theta)} ] 와 같이 유한 개의 선형(또는 선형‑분수) 함수들의 최소·최대 로 표현될 수 있다. 여기서

  • (h_{PNS}(\theta)=1) (즉, 순수 선형 형태)
  • (h_{PN}(\theta)=P(x,y)) (분모가 (\theta) 의 한 원소)
  • (h_{PS}(\theta)=P(x’,y’)) (분모가 (\theta) 의 다른 원소)
    이다.

이때 각 구간 함수는 연속이며, 활성(active) 제약이 유일한 점에서는 미분 가능하다.

증명 개요 : Tian & Pearl(2000)은 샤프 구간을 선형계획법(LP) 으로 표현할 수 있음을 보였다. LP의 쌍대(dual) 문제는 다면체(polyhedron) 형태이며, 최적값은 (\theta) 에 대한 조각별 선형 함수가 된다. 따라서 구간은 위와 같은 최소·최대 형태로 나타난다.


4. 점근적 정규성 및 신뢰구간 (Theorem 1)

실험 표본 크기를 (m), 관찰 표본 크기를 (n) 이라 하고, 두 표본이 서로 독립적이라고 가정한다.
[ \hat\theta = \bigl(\hat\theta^{(exp)},\hat\theta^{(obs)}\bigr)^{\top} ] 를 두 표본으로부터 얻은 플러그‑인(plug‑in) 추정량이라 하면, 다변량 중심극한정리(mul

이 글은 AI가 자동 번역 및 요약한 내용입니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키