인과 확률을 위한 일반 표본 크기 분석 델타 방법 접근

초록

**
본 논문은 인과 확률(PoC) 특히 필요·충분성 확률(PNS)의 경계값을 추정하기 위해 실험·관찰 데이터를 결합하는 기존 방법에 표본 크기 설계가 부족함을 지적한다. 저자는 이러한 경계가 선형 조합의 최소·최대 형태로 표현될 수 있다는 점에 착안해, 델타 방법을 이용한 일반적인 표본 크기 계산 프레임워크를 제시한다. 시뮬레이션을 통해 제안된 공식이 목표 오차 범위 내에서 안정적인 추정치를 제공함을 검증한다.

상세 분석

**
이 연구는 인과 추론 분야에서 “인과 확률”(Probability of Causation, PoC)이라는 개념이 실질적인 정책·의료 결정에 필수적임을 전제로 한다. PoC는 직접적인 실험이 불가능하거나 윤리적 제약이 있을 때, 관찰 데이터와 제한된 실험 데이터를 조합해 상한·하한을 구하는 방식으로 접근한다. 기존 문헌은 이러한 경계값을 어떻게 계산할지에 초점을 맞췄지만, 표본 크기—즉, 얼마만큼의 실험·관찰 데이터를 수집해야 원하는 신뢰구간 폭을 확보할 수 있는지—에 대한 체계적인 연구는 거의 없었다.

저자는 PoC 경계가 “선형 조합의 최소·최대” 형태로 표현될 수 있다는 일반적인 구조를 도출한다. 예를 들어, PNS의 상한은 실험군에서의 치료 효과와 관찰군에서의 사건 발생 확률을 가중합한 값의 최소값으로, 하한은 그 최대값으로 정의된다. 이러한 표현은 각 확률 추정치가 이항분포를 따른다는 가정 하에, 다변량 정규근사를 적용할 수 있는 여지를 만든다.

델타 방법은 복합 함수의 분산을 1차 테일러 전개를 통해 근사하는 고전적 통계 기법이다. 저자는 각 확률 추정치의 표본 분산(이항 분산)과 공분산(실험·관찰 샘플이 독립적이라는 가정) 을 이용해, 경계값 함수의 그라디언트를 계산한다. 그라디언트와 공분산 행렬을 곱해 얻은 근사 분산을 기반으로, 원하는 신뢰수준(예: 95%)과 허용 오차(예: ±0.05) 를 만족하도록 실험 샘플 크기 (n_e) 와 관찰 샘플 크기 (n_o) 를 동시에 결정한다.

핵심 수식은 다음과 같다.
\