혼동 변수 정의 재고: 인과 추론에서의 새로운 기준
본 논문은 “혼동 변수(confounder)”에 대한 공식적 정의가 부재함을 지적하고, 문헌에 제시된 다섯 가지 후보 정의를 체계적으로 검토한다. 각 정의가 (i) 모든 혼동 변수를 통제하면 혼동을 완전히 제거할 수 있는가, (ii) 개별 변수가 실제로 편향을 감소시키는가를 기준으로 평가한다. 그 결과, 기존 정의 대부분이 두 조건을 동시에 만족하지 못함을 확인하고, 최종적으로 “최소 충분 조정 집합(minimally sufficient adj…
저자: Tyler J. V, erWeele, Ilya Shpitser
본 논문은 인과 추론 분야에서 “혼동(confounding)”이라는 개념은 반사실적 독립성(counterfactual independence)으로 명확히 정의된 반면, “혼동 변수(confounder)”에 대한 공식적인 정의는 아직 통일되지 않았음을 지적한다. 전통적인 역학 교과서에서는 혼동 변수를 “노출과 결과 모두와 연관된 사전 노출 변수”로 설명했지만, 현대 인과 그래프와 잠재적 결과 모델에서는 이러한 직관적 정의만으로는 편향 제거 메커니즘을 충분히 설명하지 못한다.
저자들은 문헌에 등장하는 다섯 가지 후보 정의를 정리한다.
1. **정의 1 (전통적 연관성 기반)**: C가 어떤 전처리 변수 집합 X에 대해 A와 독립하지 않고, (A, X) 조건에서 Y와 독립하지 않는다. 이는 Miettinen(1974)의 “노출·결과와 모두 연관”이라는 서술을 수학적으로 표현한 것이지만, 실제로 C를 조정해도 편향이 남을 수 있다.
2. **정의 2 (백도어 차단 기반)**: C가 인과 다이어그램에서 A와 Y 사이의 모든 백도어 경로를 차단한다. Pearl(1995)의 백도어 차단 정리를 그대로 적용한 형태이며, 그래프가 정확히 지정된 경우 충분하지만, C가 단독으로 차단하지 못하고 다른 변수와 결합해야 할 경우를 배제한다.
3. **정의 3 (모든 최소 충분 조정 집합에 포함)**: C가 모든 최소 충분 조정 집합(minimally sufficient adjustment set)의 구성원이다. 즉, C가 없으면 어떠한 최소 집합도 존재하지 않는다. 이 정의는 “필수적”이라는 의미를 강조하지만, 최소 집합이 여러 개 존재할 때 일부에만 포함되는 변수를 배제한다.
4. **정의 4 (적어도 하나의 최소 충분 조정 집합에 포함)**: C가 어떤 최소 충분 조정 집합에 포함된다. 이는 정의 3보다 완화된 형태이며, 실제 분석에서 C가 포함된 집합을 찾을 수 있으면 충분히 혼동을 제거할 수 있음을 의미한다.
5. **정 정의 5 (편향 감소 기반, 스케일 의존)**: C와 X를 동시에 조정했을 때 얻어지는 평균 치료 효과 추정치의 편향이, X만 조정했을 때보다 작다. 이는 직접적인 편향 감소 효과를 수치적으로 검증하지만, 효과 척도(위험 차이, 위험 비, 로그 오즈 등)에 따라 정의가 달라지는 스케일 의존성을 가진다.
각 정의에 대해 저자들은 두 가지 핵심 속성을 검증한다.
(i) **완전 제거 속성**: 정의된 모든 혼동 변수를 통제하면 혼동이 완전히 사라야 한다.
(ii) **편향 감소/제거 속성**: 각 혼동 변수가 실제 분석 상황에서 편향을 감소시키거나 완전히 제거해야 한다.
검증 결과, 정의 1은 (ii)를 만족하지만 (i)를 위배한다(즉, 모든 변수를 조정해도 백도어가 남을 수 있다). 정의 2는 (i)를 만족하지만 (ii)는 보장하지 못한다(특정 변수만 조정하면 편향이 남을 수 있다). 정의 3은 (i)와 (ii) 모두를 만족하지만, 실제 데이터에서 최소 충분 집합이 다중 존재할 경우 적용이 어려워 실용성이 떨어진다. 정의 4는 (i)와 (ii)를 모두 만족하는 유일한 후보이며, 저자들은 이를 최종 정의의 핵심으로 채택한다. 정의 5는 (ii)만을 만족하고 (i)는 전혀 보장하지 못한다(편향이 감소해도 완전 제거는 안 된다).
따라서 저자들은 **정의 4**를 공식적인 혼동 변수 정의로 제안한다:
> “전처리 공변량 C가 존재하는 어떤 전처리 공변량 집합 X에 대해, Yₐ ⊥⊥ A | (X, C) 가 성립하지만, (X, C)의 어떠한 proper subset T에 대해서는 Yₐ ⊥⊥ A | T 가 성립하지 않는다.”
이 정의는 C가 X와 결합했을 때 처음으로 인과 효과의 무혼동성을 확보하는 **최소 충분 조정 집합**의 한 원소임을 의미한다. 또한, 저자들은 **‘대리 혼동 변수(surrogate confounder)’**라는 개념을 도입한다. 이는 정의 5와 유사하게, C가 X와 함께 조정했을 때 편향을 **감소**시키지만 완전히 없애지는 못하는 경우를 지칭한다.
논문은 또한 정의들 간의 함의 관계를 도표 형태로 제시한다. 정의 3 ⇒ 정의 4 ⇒ 정의 2 ⇒ 정의 1 순으로 함의가 흐르며, 정의 5는 별도의 축을 이룬다.
실제 적용 측면에서 저자들은 인과 다이어그램을 이용해 최소 충분 조정 집합을 탐색하는 절차를 제시한다. 먼저, 모든 백도어 경로를 식별하고, 각 경로를 차단하기 위한 변수 집합을 구한다. 그 후, 각 변수에 대해 “제거 가능한가?”를 검증함으로써 최소성을 확인한다. 이 과정은 DAG(Directed Acyclic Graph)와 d-분리(d-separation) 원리를 활용한다.
마지막으로, 논문은 로빈스·모겐스턴(1987)의 “조건부 혼동 변수” 개념과 제안된 정의가 일치함을 강조한다. 또한, 기존 역학 교과서와 최신 인과 추론 교과서 사이의 정의 격차를 메우며, 실무 연구자들이 혼동 변수라는 용어를 보다 명확히 사용할 수 있도록 가이드라인을 제공한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기