“숨겨진 교란을 드러내는 비모수적 반사실 분포 추정: 조건부 코퓰라와 표현학습의 융합”
📝 Abstract
We propose nonparametric identification and semiparametric estimation of joint potential outcome distributions in the presence of confounding. First, in settings with observed confounding, we derive tighter, covariate-informed bounds on the joint distribution by leveraging conditional copulas. To overcome the non-differentiability of bounding min/max operators, we establish the asymptotic properties for both a direct estimator with polynomial margin condition and a smooth approximation with log-sum-exp operator, facilitating valid inference for individual-level effects under the canonical rank-preserving assumption. Second, we tackle the challenge of unmeasured confounding by introducing a causal representation learning framework. By utilizing instrumental variables, we prove the nonparametric identifiability of the latent confounding subspace under injectivity and completeness conditions. We develop a ``triple machine learning" estimator that employs cross-fitting scheme to sequentially handle the learned representation, nuisance parameters, and target functional. We characterize the asymptotic distribution with variance inflation induced by representation learning error, and provide conditions for semiparametric efficiency. We also propose a practical VAE-based algorithm for confounding representation learning. Simulations and real-world analysis validate the effectiveness of proposed methods. By bridging classical semiparametric theory with modern representation learning, this work provides a robust statistical foundation for distributional and counterfactual inference in complex causal systems.
💡 Analysis
**
1. 연구 배경 및 문제 정의
- 분포 수준 인과 추론은 평균 효과(ATE)만으로는 설명되지 않는 정책·의학·경제 분야의 실제 문제(예: 위험도 감소 확률, 치료 효과의 사분위수 차이)를 다루기 위해 필수적이다.
- 기존 문헌은 (i) 관측 교란이 있을 때는 마진 분포만 식별 가능하고, (ii) 미측정 교란이 존재하면 비모수적으로는 거의 불가능하다는 점을 강조한다.
- 특히 공동 잠재 결과 분포 ((Y(1),Y(0)))는 “missing data” 문제와 동일하게 구조적 비식별 문제에 직면한다.
2. 주요 기여
| 구분 | 핵심 기여 | 기술적 핵심 |
|---|---|---|
| 관측 교란 | 조건부 코퓰라를 이용해 공변량‑조건부 Fréchet‑Hoeffding 경계를 도출, 기존 마진 기반 경계보다 항상 타이트함을 증명 | Sklar 정리 + Jensen 부등식 활용 |
| 비연속성 처리 | (a) 다항 마진 가정 하에 직접(min/max) 추정기 → 점근 정규성 (b) log‑sum‑exp 부드러운 근사 → Gateaux‑미분 가능, 경계 근처 부트스트랩 안정성 확보 | Influence‑function, 교차‑피팅, 마진 파라미터 (\alpha) 분석 |
| 미측정 교란 | IV‑기반 인과 표현 학습 프레임워크 제시, 완전성·주입성 가정 하에 잠재 교란 하위공간을 비모수적으로 식별 | 비선형 ICA‑유사 식별, Hilbert‑Schmidt 독립성 기준(HSIC) |
| Triple Machine Learning | 기존 Double‑ML에 표현 학습 단계를 추가한 3단계 교차‑피팅 → 1차 오류 전파 차단, 분산 팽창 정량화, 효율성 조건 제시 | Neyman‑orthogonal 구조, 교차‑피팅, 초수렴 조건 |
| 실험·응용 | 시뮬레이션에서 다양한 마진·표현 학습 정확도에 대한 강건성 확인, 미국 담배 수요 데이터에 적용해 정책‑수준 효과(가격 탄력성)와 개별 수준 효과를 동시에 제공 | VAE‑IV 구현, HSIC 정규화, 비교 베이스: 2SLS, 비조건부 FH, 최신 CausalVAE |
3. 이론적 강점
- 조건부 코퓰라 경계는 “공변량‑조건부 순위 보존(rank‑preserving)”이라는 직관적 구조 가정을 명시적으로 연결한다. 이는 개별 수준 효과 추정에 자연스럽게 맞물린다.
- 다항 마진 가정은 경계 근처 “tie region”의 질량을 정량화해, 비연속 추정기의 수렴 속도를 명시적으로 제어한다. (\alpha)가 클수록 (즉, 마진이 넓을수록) 추정이 쉬워짐을 이론적으로 설명한다.
- log‑sum‑exp 근사는 미분 가능성을 부여함으로써 표준 Wald 및 부트스트랩 절차를 그대로 사용할 수 있게 만든다. 이는 기존 비연속 추정기에서 발생하는 “임계값 문제”를 회피한다.
- 표현 학습 식별은 IV‑VAE와 HSIC를 결합해, 도구 변수와 잠재 교란 사이의 독립성을 강제한다. 완전성·주입성 가정은 기존 IV‑식별(예: LATE)보다 훨씬 일반적이며, 잠재 교란을 완전 복원한다는 점에서 혁신적이다.
- Triple Machine Learning은 Neyman‑orthogonal 구조를 유지하면서도, 첫 단계(표현 학습)에서 발생하는 오차가 분산 팽창 형태로만 2차 효과를 남긴다. 이는 “표현 학습이 충분히 정확하면(초수렴) 효율성 손실이 사라진다”는 명확한 가이드라인을 제공한다.
4. 가정 및 제한점
| 구분 | 가정 | 현실적 타당성 |
|---|---|---|
| 관측 교란 | (i) 조건부 교란 없음 (ignorability) (ii) 공변량 X가 충분히 풍부해 조건부 코퓰라를 정확히 추정 가능 | X가 충분히 고차원·다양하면 실제 적용 가능하지만, 차원 저주와 모델링 오류 위험 존재 |
| 다항 마진 | (\exists \alpha>0) s.t. (P( | \theta_1(X)-\theta_0(X) |
| 표현 학습 | 완전성: (E |
📄 Content
인과 추론은 근본적으로 개인이나 집단이 서로 다른 개입에 어떻게 반응하는지를 예측하는 것을 목표로 하며, 따라서 대안적인 치료 체계 하에서의 잠재적 결과(potential outcomes)의 비교에 관한 문제이다. 전통적인 추정량인 평균 처리 효과(ATE)는 평균 차이에만 초점을 맞추지만, 이득의 확률, 분위수 효과, 분포 이동과 같이 과학적으로 중요한 많은 질문들은 잠재적 결과 전체 분포에 의존한다. 그러나 연구자들은 이러한 분포를 포착하는 데 두 가지 큰 장벽에 직면한다.
첫째, 교란(confounding)이 존재할 경우, (Y(1))과 (Y(0))의 주변(marginal) 분포조차 일반적으로 식별 가능하지 않으며, 기존의 도구 변수(instrumental variable, IV) 접근법은 제한적인 파라메트릭 가정에 의존하거나 국소 효과(local effects)만을 다루는 경우가 많다(Angrist et al., 1996; Swanson et al., 2018).
둘째, 조건부 무시 가능성(conditional ignorability)이 성립하고 주변 분포가 식별 가능하더라도, ((Y(1),Y(0)))의 결합(joint) 분포는 추가적인 구조적 가정 없이는 근본적으로 관측할 수 없다.
본 논문은 이러한 격차를 메우기 위해 분포적 인과 추론(distributional causal inference)을 위한 통합적이고 원칙적인 프레임워크를 제시한다.
1. 공동 분포의 “결측 데이터” 문제와 Fréchet‑Hoeffding 경계
첫 번째 주요 기여는 비측정 교란이 없다는 가정 하에 공동 분포의 “결측 데이터” 문제를 해결하는 것이다. 우리는 교란이 측정되지 않았다는 전제 없이 공변량(covariate) 정보를 활용한 Fréchet‑Hoeffding(FH) 경계를 엄밀히 구축한다(Nelsen, 2006). 조건부 copula를 이용하면, 상한(bound) — 조건부 순위 보존(conditional rank preservation) 혹은 조건부 동조성(conditional comonotonicity) — 이 명확한 구조적 해석을 갖는다는 것을 보인다. 이는 개별 처리 효과 추정 및 반사실(counterfactual) 추론의 기본 가정이다(Xie et al., 2023; Wu et al., 2025).
이론을 실제 적용으로 옮기기 위해, 우리는 두 가지 보완적인 접근법을 제시한다.
- 다항 마진(polynomial margin) 조건 하에서 직접적인 추정량을 개발하고,
- log‑sum‑exp 근사화를 이용한 부드러운(smooth) 추정량을 제시한다.
두 방법 모두 비정형(non‑smooth) min/max 함수의 비미분성을 극복하도록 설계되었으며, 각각에 대한 점근적(asymptotic) 특성을 증명하여 유효한 빈도주의(frequentist) 추론과 신뢰구간(confidence interval) 구성을 가능하게 한다(Levis et al., 2025).
2. 비측정 교란이 존재할 때의 식별 및 표현 학습
두 번째 기여는 교란이 비측정된 상황을 다루는 것이다. 이 경우 주변 분포 자체의 비파라메트릭 식별조차 어려워진다. 최근 인과 표현 학습(causal representation learning)의 진보에 영감을 받아(Kong et al., 2022; Ng et al., 2025; Moran & Aragam, 2026) 우리는 IV를 활용한 표현 학습 기반 프레임워크를 제안한다. 적절한 완전성(completeness) 및 독립성 가정 하에, 교란 서브스페이스는 가역 변환(invertible transformation)까지 식별될 수 있음을 보인다. 따라서 학습된 표현은 관측되지 않은 교란의 유효한 프록시(proxy) 로 작용하여 복잡한 설정에서도 잠재적 결과의 주변 분포를 식별할 수 있다.
이를 구현하기 위해 Triple Machine Learning(TML) 절차를 도입한다. 이는 기존의 Double Machine Learning(Chernozhukov et al., 2018; Kennedy, 2024)에 표현 학습을 위한 추가적인 교차‑피팅(cross‑fitting) 단계를 더한 확장이다. 우리는 1단계 표현 오류가 2단계 추정량의 분산 팽창에 미치는 영향을 정밀히 규명하고, 표현 학습기가 초수렴(super‑convergence)할 경우 반파라메트릭 효율성(semi‑parametric efficiency) 을 달성할 수 있는 조건을 제시한다.
2.1 IV‑VAE와 HSIC 페널티
실제 구현을 위해 Instrumental Variable Variational Autoencoder(IV‑VAE) 를 제안한다. 여기서는 Hilbert‑Schmidt Independence Criterion(HSIC) 페널티(Gretton et al., 2005)를 추가하여 복구된 잠재 요인이 도구 변수와 진정으로 외생(exogenous)임을 보장한다. 도구 변수에 의존하는 잠재 요인을 명시적으로 모델링하기보다, 디코더(decoder)를 관측된 도구 변수에 직접 조건화 하는 축소형(reduced‑form) 설계를 채택한다. 이렇게 하면 도구 변수에 의해 유도된 변동을 흡수하면서도 교란 구조는 명확히 분리된다.
3. 논문의 구성
- Section 2: 조건부 copula를 이용한 순위 보존 경계의 식별과 제안된 추정량의 점근 이론을 상세히 기술한다.
- Section 3: 비측정 교란을 위한 표현 학습 프레임워크와 Triple Machine Learning 추정기의 성질을 도출하고, 효과적인 VAE‑기반 학습 방법을 제시한다.
- Section 4: 앞서 소개한 두 방법을 통합하는 방안을 논의한다.
- Section 5: 시뮬레이션 결과를 제시한다.
- Section 6: 미국의 담배 수요 데이터를 이용한 실증 분석을 수행한다.
- Appendix: 증명 및 기술적 세부 사항을 제공한다.
4. 조건부 copula를 통한 공동 반사실 결합 경계
교란이 모두 관측된 경우, 반사실 주변 분포 (F_{Y(a)})는 표준 가정 하에 쉽게 식별된다. 여기서는 조건부 copula를 활용해 잠재적 결과 ((Y(1),Y(0)))의 공동 분포에 대한 더 타이트한 경계를 도출한다. 특히 조건부 순위 보존 가정에 해당하는 상한은 조건부 동조성(comonotonicity) 에 해당한다는 점에 주목한다.
4.1 기본 설정
(n)개의 i.i.d. 표본 (O_i=(Y_i,A_i,X_i)\sim P) 를 관측한다. 여기서
- (A\in{0,1}) 은 치료,
- (Y\in\mathbb{R}) 은 결과,
- (X\in\mathcal{X}\subset\mathbb{R}^d) 은 관측 공변량이다.
잠재적 결과 (Y(a)) 의 주변 분포는 표준 무시 가능성 가정(ignorability) 하에 식별 가능하다.
4.2 Sklar 정리와 Fréchet‑Hoeffding 경계
Sklar 정리에 따르면 임의의 공동 분포는 주변 분포와 copula (C) 로 표현된다.
[ F_{Y(1),Y(0)}(y_1,y_0)=C\bigl(F_{Y(1)}(y_1),F_{Y(0)}(y_0)\bigr). ]
추가 가정이 없을 경우, copula는 Fréchet‑Hoeffding 경계에 의해 제한된다.
[ L(u_1,u_0)=\max{u_1+u_0-1,0}\le C(u_1,u_0)\le U(u_1,u_0)=\min{u_1,u_0}. ]
4.3 조건부 copula를 이용한 강화된 경계
조건부 버전의 Sklar 정리를 적용하면
[ F_{Y(1),Y(0)\mid X}(y_1,y_0\mid x)=C_{x}\bigl(F_{Y(1)\mid X}(y_1\mid x),F_{Y(0)\mid X}(y_0\mid x)\bigr), ]
여기서 (C_{x}) 역시 동일한 Fréchet‑Hoeffding 한계에 묶인다. 이를 (X)에 대해 적분하면 무조건부(unconditional) 경계가 얻어진다.
[ U(y_1,y_0)=\mathbb{E}X!\bigl[\min{\theta_1(X),\theta_0(X)}\bigr], \qquad \theta_a(X)=F{Y(a)\mid X}(y_a\mid X). ]
(\min{\theta_1(X),\theta_0(X)}) 가 달성되는 경우는 조건부 순위 보존(conditional rank‑preserving), 즉 조건부 동조성 가정이다. 즉, 모든 (x)에 대해 (Y(1)) 와 (Y(0)) 이 동일한 잠재 순위에 따라 단조적으로 변한다는 의미다.
4.4 정리 2 (조건부 vs. 주변 경계)
- 조건부 경계는 먼저 (X)에 대해 Fréchet‑Hoeffding 경계를 적용하고, 그 후 (X)에 대해 적분한다.
- 주변 경계는 직접 주변 분포에 Fréchet‑Hoeffding 경계를 적용한다.
조건부 경계는 언제나 주변 경계보다 같거나 더 타이트하다. 이는 Jensen 부등식에 의해 직접 증명되며, (X)가 실제로 정보를 제공하지 않을 때만 두 경계가 동일해진다.
5. 비정형(min/max) 함수에 대한 추정 및 점근 이론
우리는 관심 함수 (\Psi(P)=\mathbb{E}_X[\phi(\theta_1(X),\theta_0(X))]) 를 추정한다. 여기서
[ \phi_U(x,y)=\min{x,y},\qquad \phi_L(x,y)=\max{x+y-1,0}. ]
주로 상한 (\Psi_U(P)=U(y_1,y_0)) 에 초점을 맞춘다(이는 조건부 순위 보존 공동 분포와 일치한다).
5.1 플러그인(plug‑in) 추정량과 A
이 글은 AI가 자동 번역 및 요약한 내용입니다.