Wasserstein 투영 거리 기반 회귀 모델 공정성 테스트
초록
본 논문은 회귀 모델의 공정성을 평가하기 위해 Wasserstein 투영 거리를 활용한 검정 프레임워크를 제안한다. 기대값 기반 공정성 기준을 분류하고, 이 기준을 만족하는 분포 집합에 대한 Wasserstein 투영을 통해 검정 통계량을 정의한다. 이 통계량의 점근적 상한과 제한 분포를 이론적으로 분석하여 가설 검정 절차와 정확도‑공정성 균형을 고려한 최적 데이터 교정 방법을 제시한다. 합성 실험에서 기존 순열 검정보다 높은 특이도를 보였으며, 실제 학생 성적 및 주택 가격 데이터에 적용해 성별·오염 지역 간의 통계적 불공정성을 확인하였다.
상세 분석
이 연구는 회귀 문제에서 공정성 검정을 체계화하려는 첫 시도 중 하나로, 기존 분류 중심의 공정성 검정 방법을 회귀에 적합하도록 확장한다. 핵심 아이디어는 “기대값 기반” 공정성 기준을 선택하고, 이를 만족하는 확률분포 집합 F_R 을 정의한 뒤, 관측 데이터 분포 P 와 F_R 사이의 Wasserstein 거리 최소값을 검정 통계량 T 로 사용하는 것이다. 비용 함수 c 는 특성 공간 x 와 출력 y 의 차이에 가중치를 부여하고, 민감 속성 A 간 이동 비용을 무한대로 설정해 그룹 간 질량 이동을 금지한다. 이는 민감 속성의 정확성을 전제로 하여 그룹별 차이를 순수히 모델 출력·오차 차이로 귀결시킨다.
통계량 T 의 계산은 무한 차원의 최적화 문제이지만, 저자들은 이중 정리를 이용해 유한 차원의 최대‑최소 문제로 변환한다. 구체적으로, 경험적 분포 \hat P_N 에 대해 γ 벡터(라그랑주 승수)를 도입하고, 각 샘플 (i) 에 대해 x_i, y_i 를 최적화함으로써 T = (1/N)·sup_γ inf_{x_i,y_i}
댓글 및 학술 토론
Loading comments...
의견 남기기