장기 치료 효과 식별을 위한 시간 연결 함수와 데이터 결합
초록
본 논문은 단기 실험 데이터와 장기 관찰 데이터를 결합하여 장기 평균 치료 효과(LTE)를 식별하는 방법을 재검토한다. 핵심은 단기와 장기 잠재 결과를 연결하는 ‘시간 연결 함수’에 대한 합리적인 제한을 두는 것이며, 이러한 제한이 없으면 실험 데이터는 식별력을 전혀 제공하지 못한다. 저자는 단조성 가정과 치료 불변성 가정을 제시하고, 이를 포함한 일반적인 제한을 활용해 최적화 기반의 식별 프레임워크를 구축한다. 프레임워크는 불완전한 실험 순응도도 허용하며, Sharp한 하한·상한을 계산한다. Head Start 프로그램을 사례로 적용한 결과, 교육·고용·범죄 분야에서 장기 효과가 존재하지만 형제 비교 연구보다 작게 추정되었다.
상세 분석
이 연구는 장기 치료 효과(LTE)를 식별하기 위해 두 종류의 데이터—단기 실험 데이터와 장기 관찰 데이터—를 동시에 활용하는 기존 문헌을 비판적으로 재검토한다. 핵심 논점은 ‘시간 연결 함수(m₀(s), m₁(s))’, 즉 단기 잠재 결과 S(d)와 장기 잠재 결과 Y(d) 사이의 평균 관계에 대한 가정이다. 저자는 실험 데이터가 식별력을 제공하려면 반드시 이 함수에 대한 제한이 필요하다고 증명한다. 구체적으로, 제한이 전혀 없을 경우(즉, M_A = M) 실험 데이터를 포함한 식별 집합 H(τ)은 순수 관찰 데이터만을 이용한 식별 집합 H_O(τ)와 동일하므로 실험 데이터는 정보적 가치를 제공하지 않는다. 따라서 실험 데이터의 가치를 살리기 위해서는 ‘시간 연결 함수’에 대한 구조적 가정이 필수적이다.
논문은 두 가지 실용적인 가정을 제시한다. 첫 번째는 단조성 가정으로, 단기 결과가 높을수록 장기 평균 결과도 비감소한다는 전제다. 이는 경제학에서 생산 함수의 단조성이나 인간 자본 축적 과정과 유사한 직관적 근거를 가진다. 두 번째는 치료 불변성 가정으로, 치료 여부에 관계없이 동일한 단기 결과가 동일한 장기 평균 결과를 초래한다는 내용이다. 이는 매개변수 모델이나 통계적 대리변수(surrogate) 가정과 일맥상통한다. 두 가정 모두 ‘시간 연결 함수’를 제한하면서도 치료 선택 메커니즘 자체를 제한하지 않으므로, 치료 반응에 대한 보다 유연한 분석이 가능하다.
식별 프레임워크는 이러한 제한을 제약조건으로 포함한 선형/비선형 최적화 문제를 풀어 Sharp한 하한·상한을 계산한다. 이때 관측 가능한 단기 결과의 분포(γ₀, γ₁)와 제한된 함수 집합 M_A를 동시에 고려한다. 저자는 Beresteanu·Molchanov·Molinari(2012)와 Chesher·Rosen(2017)의 부분식별 이론을 확장하여, 잠재 변수의 분포와 조건부 평균을 동시에 구속하는 새로운 기술적 접근을 제시한다. 또한, 실험 데이터에서 순응도가 완전하지 않은 경우(즉, D≠Z)에도 적용 가능하도록 설계돼, 실제 정책 평가에서 흔히 발생하는 비순응 문제를 자연스럽게 포함한다.
실증 부분에서는 Head Start Impact Study와 NLSY79를 결합해, 교육 성취, 노동시장 참여, 범죄 행위에 대한 장기 효과를 추정한다. 제한된 모델 하에서 추정된 효과는 고등학교 졸업 확률을 1.93.2%p 상승, 학년 재이수 확률을 1.15.3%p 감소, 비취업·비학업 상태를 1.54.6%p 감소, 범죄 참여를 1.24.0%p 감소시킨다. 이러한 추정치는 형제 비교 연구가 제시한 효과보다 작지만, 여전히 정책적으로 의미 있는 장기 효과를 보여준다.
전반적으로 이 논문은 (1) 시간 연결 함수에 대한 제한이 장기 효과 식별에 필수적임을 이론적으로 증명하고, (2) 경제학적 직관에 기반한 두 가지 구체적 가정을 제시하며, (3) 제한을 일반화하고 최적화 기반으로 구현한 통합 식별 프레임워크를 제공한다는 점에서 학문적·실무적 기여가 크다. 특히 불완전 순응을 허용하고, 다양한 제한을 손쉽게 추가할 수 있는 구조는 향후 다양한 정책 평가에 널리 적용될 가능성을 열어준다.
댓글 및 학술 토론
Loading comments...
의견 남기기