인구통계적 평등을 위한 군중 라벨 집계 최적화
초록
본 논문은 군중소싱으로 얻은 다중 라벨을 집계할 때 발생할 수 있는 편향을 인구통계적 평등(데모그래픽 패리티) 관점에서 분석한다. 다수결과 베이지안 최적 집계 두 방법에 대해 공정성 격차의 비상한 수렴성을 비대칭적 오류 모델 하에 정량화하고, 소규모 군중에서도 개별 라벨러의 공정성 격차가 전체 집계에 미치는 영향을 상한으로 제시한다. 또한 연속형 입력에만 적용되던 ε‑공정성 사후처리 프레임워크를 이산 라벨에 일반화하고, 이를 기반으로 모든 집계 규칙에 적용 가능한 FairCrow 알고리즘을 제안한다. 실험 결과는 제안 방법이 기존 사후처리 대비 공정성 및 정확도 모두에서 우수함을 입증한다.
상세 분석
논문은 먼저 군중소싱 환경을 수학적으로 정의하고, 민감 특성 A∈{0,1}와 비민감 특성 X를 포함한 입력 공간을 고려한다. 라벨러 r은 one‑coin 모델에 따라 조건부 정확도 p_r(a,x)를 갖으며, 이는 라벨 Y와 독립적인 노이즈가 아니라 A와 X에 의존한다는 점이 핵심이다. 두 가지 집계 규칙, 즉 Majority Vote(ϕ_MV)와 Bayes‑optimal(ϕ★)에 대해 기존 Gao et al. (2016)의 오류 지수 K_ϕ를 활용해 P(ˆY_ϕ≠Y|A=a,X=x) ≤ exp(−R·K_ϕ(a,x)) 라는 상한을 도출한다. 여기서 K_ϕ는 각 라벨러의 스킬 p_r에 대한 로그합으로, 라벨러가 ½보다 크게 정확하면 양의 기여를, ½보다 작으면 음의 기여를 한다.
공정성 측면에서는 Global Demographic Parity Gap ΔDP(·)=|P(·=1|A=1)−P(·=1|A=0)|를 사용한다. Proposition 3.2는 ΔDP(ˆY_ϕ_R)−ΔDP(Y)가 E_{X|A=a}
댓글 및 학술 토론
Loading comments...
의견 남기기