전략적 분류에서 개인 공정성을 위한 무작위 임계값 설계
초록
전략적 분류 환경에서 결정 임계값을 고정하면 개인 간 비용 격차가 발생해 개인 공정성을 위배한다. 저자들은 임계값을 확률적으로 선택하는 무작위 분류기를 제안하고, 비용 연속성 조건을 이용해 개인 공정성을 보장하는 충분조건을 제시한다. 또한 선형 계획법을 통해 정확도를 최대화하면서 공정성을 만족하는 최적의 임계값 분포를 계산하고, 이를 그룹 공정성 제약과 결합하는 방법을 제시한다. 실험 결과, 제안 방법이 기존 방법보다 공정성‑정확도 트레이드오프를 크게 개선한다.
상세 분석
본 논문은 전략적 분류 상황에서 개인이 자신의 특성을 조정해 모델의 결정을 바꾸려는 행동을 고려한다. 기존 연구는 주로 그룹 공정성에 초점을 맞추었으나, 개인 수준에서 “유사한 특성을 가진 사람은 유사하게 대우받아야 한다”는 Dwork의 개인 공정성 개념을 전략적 환경에 적용하려는 시도가 부족했다. 저자들은 먼저 결정적(threshold) 분류기가 비용 함수 c(x, x′)와 연계된 최적 반응(best response) 구조 때문에 비용 연속성이 깨짐을 정리(정리 3.1)하고, 이는 어떤 상수 M_c에 대해서도 |c_f(x₁)−c_f(x₂)|>M_c‖x₁−x₂‖₂인 쌍을 만들 수 있음을 증명한다. 즉, 임계값이 고정된 경우 동일한 근본적 능력을 가진 두 개인이 서로 다른 비용을 부담하게 되므로 개인 공정성이 위배된다.
이를 극복하기 위해 임계값을 확률분포 p(t) 위에서 무작위로 샘플링하는 방식을 도입한다. 정리 3.2는 p(t)가 상한 L_c 이하일 때, 즉 p(t)≤L_c= min{λM_c C_l, M_c C_l C_g C} 를 만족하면 모든 x₁, x₂에 대해 |c_F(x₁)−c_F(x₂)|≤M_c‖x₁−x₂‖₂ 가 성립함을 보인다. 여기서 C_l은 l(x)의 그래디언트 최대값, C_g는 비용 함수 g의 도함수 최대값을 의미한다. 이 조건은 임계값 분포가 충분히 “부드럽게” 퍼져 있어 비용 차이가 입력 거리와 비례하도록 만든다.
공정성을 유지하면서 정확도를 최적화하기 위해 저자들은 오류율 e(t)를 임계값 t에 대한 함수로 정의하고, p(t)를 구간별 상수값으로 근사한 뒤 선형계획법(LP) 형태로 변환한다. 구간 수 K와 각 구간의 시작점 s_k를 정하고, A_k = ∫{s_k}^{s{k+1}}∫_{t−C}^{C} … dt dl 로 정의된 상수를 이용해 최소화 목표 min Σ A_k p_k 를 설정한다. 제약식은 Σ p_k·(D−C−C)/K =1 (확률분포 정규화)와 0≤p_k≤L_c (공정성 제한)이다. 이 LP는 단순히 simplex 알고리즘 등으로 효율적으로 풀 수 있다.
또한 결과 예측값 ˆY_F(x)=E
댓글 및 학술 토론
Loading comments...
의견 남기기