공정성 평가를 위한 특징 중요도 점수: 특징 차단과 순열 접근법
초록
본 논문은 모델-불가지론적인 두 가지 공정성 기반 특징 중요도 지표를 제안한다. 첫 번째는 특정 특징을 무작위 순열로 섞어 모델의 공정성 변화를 측정하는 방법이며, 두 번째는 해당 특징을 완전히 제외하고 학습된 모델의 공정성 차이를 평가하는 차단(occlusion) 방식이다. 차단 점수는 미니패치(minipatch) 학습을 이용해 계산 비용을 크게 낮춘다. 합성 데이터와 UCI 성인소득·독일신용 데이터에 대한 실험을 통해 제안 방법이 직관적이며, 편향에 기여하는 특징을 효과적으로 식별함을 보인다.
상세 분석
이 논문은 머신러닝 모델의 공정성을 정량화하기 위한 두 가지 새로운 특징 중요도 메트릭을 제시한다. 첫 번째 메트릭인 **Permutation‑Based Fair Feature Importance (ρ_perm)**는 특정 특징 j의 값을 전체 데이터셋에서 무작위로 섞어 X^π(j) 를 만든 뒤, 원본 모델 f와 섞인 데이터를 사용해 재학습된 모델 f^π(j)를 비교한다. 공정성 지표 h(·) (예: Demographic Parity)를 이용해 ρ_perm(j)=h(y,f^π(j)(X^π(j)),z)−h(y,f(X),z) 로 정의한다. 이 방식은 특징 j와 타깃 y 사이의 상관관계를 깨뜨리면서도 특징의 주변 분포는 유지하므로, j가 공정성에 미치는 직접적인 기여도를 추정한다. 그러나 M개의 특징 모두에 대해 모델을 재학습해야 하므로 계산 비용이 O(M)·cost(f) 로 급증한다. 또한, 다중공변량 상관관계가 강한 경우 단일 특징 순열만으로는 실제 기여도를 정확히 파악하기 어려울 수 있다.
두 번째 메트릭인 **Occlusion‑Based Fair Feature Importance (ρ_occl)**는 특징 j를 데이터셋에서 완전히 제거한 X^{−j} 로 모델 f^{−j}를 학습하고, 원본 모델 f와의 공정성 차이를 ρ_occl(j)=h(y,f^{−j}(X^{−j}),z)−h(y,f(X),z) 로 정의한다. 이 접근법은 Leave‑One‑Out 방식과 유사하지만, 공정성 평가에 특화되어 있다. 특히 저샘플 상황에서도 안정적인 추정이 가능하다는 장점이 있다. 계산 효율성을 위해 저자들은 Minipatch Learning을 도입한다. 전체 데이터 행·열을 작은 서브셋(미니패치) K번 무작위 추출하고, 각 미니패치마다 모델을 학습한다. 특정 특징 j가 포함되지 않은 미니패치만을 모아 ˆb^{−j} 를 계산함으로써, 전체 데이터에 대한 재학습 없이 ρ_occl(j)를 근사한다. 이 방법은 O(K·cost(f_{mini})) 로 비용을 크게 낮추며, 고차원 원-핫 인코딩 특성에도 적용 가능하다.
실험에서는 (1) 합성 데이터를 이용해 첫 두 특징이 보호 속성(z)와 상관관계가 있게 설계하고, 5개의 신호 특징이 예측에 기여하도록 구성하였다. Random Forest 모델을 사용해 ρ_perm과 ρ_occl을 계산한 결과, 편향을 유발하는 앞 두 특징은 모두 음의 공정성 점수를 보였으며, 예측에 중요한 신호 특징은 양의 정확도 점수를 나타냈다. 이는 두 메트릭이 설계 의도대로 편향 기여와 예측 기여를 구분함을 확인한다. (2) 실제 데이터로는 UCI Adult Income과 German Credit 데이터셋을 사용하였다. 미니패치를 2,000개, 행·열 비율 0.2 로 설정하고 Random Forest를 기본 학습기로 사용했다. Adult 데이터에서는 “Relationship: Husband”가 가장 큰 음의 공정성 점수를 받아 성별 편향을 명확히 드러냈으며, “Capital Gain”은 높은 정확도 점수를 보여 예측에 유용함을 확인했다. 또한 “Hours‑per‑Week”는 공정성‑정확도 간 트레이드오프를 보여, 편향을 완화하려면 정확도 손실을 감수해야 함을 시사한다. German Credit 데이터에서는 “Duration of the Loan”, “Credit Amount” 등이 모두 양의 공정성·정확도 점수를 받아, 해당 도메인에서는 편향과 성능 간 충돌이 상대적으로 적음을 보여준다.
논문의 주요 기여는 다음과 같다. 첫째, 공정성에 초점을 맞춘 모델‑불가지론적 특징 중요도 지표를 명확히 정의하고, 기존 정확도‑중심 중요도와 차별화하였다. 둘째, 차단 기반 점수의 계산 비용을 미니패치 학습으로 크게 낮춤으로써 고차원·대규모 데이터에도 실용적으로 적용 가능하도록 했다. 셋째, 실험을 통해 두 메트릭이 편향을 유발하는 특징을 일관되게 식별하고, 실제 도메인에서 의미 있는 해석을 제공함을 입증했다. 마지막으로, 향후 다중 특징 상호작용이나 그룹별 공정성 기여 분석 등 확장 가능성을 제시한다.
이 연구는 공정성 해석 도구가 아직 부족한 현 상황에서, 간단하면서도 확장 가능한 방법론을 제공한다는 점에서 의미가 크다. 특히, 순열 기반 접근은 특징‑공정성 간 인과관계를 직관적으로 보여주며, 차단 기반 접근은 모델 재학습 없이도 편향 기여를 추정할 수 있다. 미니패치 기법을 통한 효율성 증대는 실제 산업 현장에서 대규모 특성 집합을 다룰 때 큰 장점이 될 것이다. 다만, 순열 방식은 모델 재학습 비용이 높고, 다중공변량 상관관계에 민감하다는 한계가 남아 있다. 차단 방식은 특징을 완전히 제외함으로써 발생할 수 있는 모델 구조 변화(예: 상호작용 손실)를 고려해야 한다. 향후 연구에서는 이러한 한계를 보완하기 위해 다중 특징 순열/차단, Shapley‑기반 공정성 기여와의 비교, 그리고 비선형·딥러닝 모델에 대한 적용을 탐색할 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기