전이 가능성을 위한 변수 선택 전략: 원인 변수 중심 접근법
초록
전이 가능성 프레임워크에서 변수 선택은 편향 없는 추정을 위해 핵심이다. 선택 다이어그램은 충분조건을 제공하지만 필요조건은 아니다. 시뮬레이션 결과, 결과의 원인인 변수는 편향을 늘리지 않으면서 분산을 감소시키며, 분포 차이만 있는 비원인 변수는 분산과 MSE를 오히려 키운다. 따라서 전이 추정에서는 결과를 일으키는 모든 변수를 포함하고, 단순히 모집단 간 분포 차이만 있는 변수는 제외해도 된다.
상세 분석
본 논문은 전이 가능성(transportability)이라는 개념을 활용해, 한 연구(소스)에서 얻은 인과 효과를 다른 모집단(타깃)으로 옮길 때 어떤 변수를 포함시켜야 하는가에 대한 실질적인 가이드라인을 제시한다. 전이 가능성 이론에서는 선택 다이어그램(selection diagram)을 사용해 소스와 타깃 사이의 구조적 차이를 시각화한다. 기존 문헌에서는 이 다이어그램에 나타난 모든 교란 변수와 매개 변수를 포함하면 편향 없는 전이 추정이 가능하다고 주장한다. 그러나 저자들은 이러한 접근이 “충분조건”일 뿐 “필요조건”은 아니라는 점을 강조한다. 즉, 다이어그램에 나타나지 않은 변수라도 전이 추정에 영향을 미칠 수 있으며, 반대로 다이어그램에 포함된 변수라도 실제로는 전이에 불필요할 수 있다.
시뮬레이션 실험에서는 파라메트릭 g‑computation 전이 추정기를 사용해 네 가지 유형의 변수를 조합한다: (1) 결과의 직접 원인이며 소스·타깃 모두에서 분포가 다른 변수, (2) 결과의 원인이지만 분포 차이가 없는 변수, (3) 결과와 무관하지만 분포가 다른 변수, (4) 결과와 무관하고 분포 차이도 없는 변수. 실험 결과는 다음과 같다. 결과의 원인인 변수는 포함 여부에 관계없이 편향을 유발하지 않으며, 오히려 분산을 감소시켜 MSE를 낮춘다. 특히, 이러한 변수는 효과 수정(effect modification) 여부와 무관하게 전이 추정의 효율성을 향상시킨다. 반면, 결과와 무관한데도 두 모집단 간 분포가 다른 변수는 전이 추정기의 분산을 크게 늘려 MSE를 악화시킨다. 이는 불필요한 변수의 포함이 샘플링 변동성을 증폭시켜 추정 정확도를 떨어뜨린다는 점을 시사한다. 또한, 결과의 원인이지만 효과를 수정하지 않는 변수는 제외해도 편향이 증가하지 않는다.
이러한 결과는 변수 선택 전략을 재정의한다. 전이 가능성 분석에서 가장 중요한 기준은 “결과의 원인 여부”이며, 단순히 모집단 간 분포 차이만을 근거로 변수를 선택하는 것은 비효율적이다. 저자들은 실무에서 변수 선택을 할 때, 먼저 연구 대상 모집단 내에서 결과를 설명하는 모든 원인 변수를 식별하고 포함시킬 것을 권고한다. 이후에, 해당 변수들이 타깃 모집단에서도 측정 가능하고, 데이터 품질이 확보된 경우에만 추가적인 분포 차이 변수들을 고려한다. 이렇게 하면 편향은 최소화되고, 추정의 분산과 MSE는 최적화된다.
댓글 및 학술 토론
Loading comments...
의견 남기기