반사실 공정성: 인과관계를 통한 차별 방지

** 이 논문은 머신러닝 기반 의사결정이 법적·윤리적 영향을 미치는 분야에서, 과거 데이터에 내재된 편향을 그대로 학습하면 차별을 영속하거나 악화시킬 위험이 있음을 지적한다. 기존 연구들은 공정성을 수치화한 여러 정의(예: Fairness Through Unawareness, Individual Fairness, Demographic Parity, Equality of Opportunity)를 제시했지만, 보호 속성(A)와 다른 변수들 사이의 인과관계를 고려하지 않으면 정의 자체가 모순되거나 차별을 증폭시킬 수 있다. 이를 해결하기 위해 저자들은 인과추론의 핵심 도구인 구조적 인과 모델(U, V, F)을 도입한다. 여기서 V는 관측 가능한 변수 집합(A∪X)이며, U는 관측되지 않은 잠재 요인이다. 구조적 방정식 f_i는 각 V_i가 부모 변수와 U의 함수임을 명시한다. 인과 그래프는 DAG 형태로 표현되며, ‘intervention’(do-연산)을 통해 변수 값을 강제로 바꾸는 반사실 상황을 시뮬레이션한다. 논문의 핵심 정의인 ‘반사실 공정성(counterfactual fairness)’은 다음과 같다: 임의의 관측값 X=x와 보호 속성 A=a에 대해, A를 a′(가능한 다른 값)로 바꾸는 반사실 세계에서도 예측 Ŷ의 조건부 분포가 변하지 않아야 한다. 수식으로는 P(Ŷ_{A←a}=y | X=x,A=a)=P(Ŷ_{A←a′}=y | X=x,A=a)이다. 이는 A가 Ŷ의 직접·간접 원인이 되지 않도록 하는 강력한 개인 수준 공정성 기준이다. 정리 1(Lemma 1)은 이 정의를 만족하기 위한 실용적인 설계 원칙을 제시한다. 즉, Ŷ를 A의 비후손(non‑descendants)만을 함수로 만들면 반사실 공정성을 자동으로 보장한다. 비후손은 A에 의해 직접·간접적으로 영향을 받지 않는 변수들로, 예를 들어 잠재 변수 U나 A와 독립적인 X의 일부가 해당한다. 후손을 포함하려면 전체 의존성이 사라지는 특수한 경우에만 가능하며, 일반적으로는 비후손만을 사용하도록 설계한다. 두 가지 실증 사례가 논문의 핵심을 설명한다. 첫 번째 ‘빨간 차’ 시나리오는 인종(A)이 빨간 차 선호(X)에 영향을 주지만 사고율(Y)에는 영향을 주지 않는다. X만을 이용해 Y를 예측하면 인종에 따라 보험료 차별이 발생한다. 구조적 모델을 통해 U(운전 성향)를 추정하고, Ŷ=E

반사실 공정성: 인과관계를 통한 차별 방지

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기