공정성을 고려한 비음수 행렬 분해
초록
본 논문은 전통적인 NMF가 전체 평균 재구성 오차만 최소화함으로써 소수 집단에 불리한 결과를 초래할 수 있음을 지적한다. 이를 해결하기 위해 그룹별 평균 손실의 최댓값을 최소화하는 최소‑최대(min‑max) 목표 함수를 도입한 Fairer‑NMF를 제안한다. 두 가지 최적화 방법인 곱셈 업데이트 규칙과 교대 최소화(Alternating Minimization) 스킴을 유도하고, 합성 및 실제 데이터셋을 통한 실험으로 공정성 향상 가능성을 확인한다. 다만 특정 상황에서는 전체 오류가 증가하거나 일부 개인의 정확도가 감소할 수 있음을 강조한다.
상세 분석
본 연구는 비음수 행렬 분해(NMF)의 기본 목표가 전체 데이터에 대한 평균 재구성 오차를 최소화한다는 점에 주목한다. 평균 중심의 최적화는 데이터가 고르게 분포되지 않을 경우, 표본 수가 적은 소수 집단이 큰 재구성 오차를 경험하게 만든다. 저자들은 이러한 불공정성을 정량화하기 위해 각 그룹 A, B에 대해 평균 손실 loss(A) = ‖X_A − W_A H‖_F²/|A| 와 loss(B) 를 정의하고, max{loss(A), loss(B)} 를 최소화하는 최소‑최대(min‑max) 프레임워크를 도입한다. 이는 기존의 Fair PCA에서 사용된 목표와 구조적으로 유사하지만, NMF는 비음수 제약과 곱셈 형태의 모델링으로 인해 최적화 난이도가 크게 증가한다.
알고리즘 측면에서 저자들은 두 가지 접근법을 제시한다. 첫 번째는 Lee & Seung(2000)의 곱셈 업데이트 방식을 변형하여, 각 그룹의 손실에 대한 가중치를 동적으로 조정함으로써 최소‑최대 목표를 근사한다. 업데이트 식은 W←W⊙(XHᵀ)/(WHHᵀ) 와 H←H⊙(WᵀX)/(WᵀWH) 에 그룹별 스케일링 파라미터 α_A, α_B를 곱해 주는 형태이며, 이는 비음수성을 유지하면서도 손실 균형을 유도한다. 두 번째는 교대 최소화(Alternating Minimization) 방식으로, 고정된 H 에 대해 각 그룹 W_A, W_B 를 비음수 최소제곱(NNLS) 문제로 풀고, 이후 전체 H 를 업데이트한다. 이때 각 그룹의 손실을 동일하게 만들기 위해 라그랑주 승수를 도입해 제약식 α_A·loss(A)=α_B·loss(B) 를 강제한다.
수렴성 분석에서는 곱셈 업데이트가 기존 NMF와 동일하게 모노톤하게 목표 함수를 감소시킴을 보였으며, 교대 최소화는 각 서브문제가 볼록하므로 전역 최소는 보장되지 않지만 지역 최소에 수렴한다는 점을 강조한다. 계산 복잡도 측면에서 두 방법 모두 기본 NMF와 동일한 O(mnr) 정도이지만, 그룹별 가중치 조정 및 라그랑주 승수 업데이트가 추가되어 실제 실행 시간은 약 1.2~1.5배 정도 증가한다.
실험에서는 합성 데이터에서 그룹 크기 비율을 1:9, 1:4 등으로 변형하고, 토픽 수 r 을 520으로 설정해 Fairer‑NMF와 표준 NMF를 비교했다. 결과는 최소‑최대 손실이 크게 감소했으며, 특히 소수 그룹의 평균 재구성 오차가 3050% 개선되었다. 실제 데이터로는 의료 기록(다양한 인종·연령 그룹)과 뉴스 기사(정치적 성향) 등을 사용했으며, 공정성 지표(그룹별 RMSE, 최대 손실)와 전반적인 재구성 오류를 동시에 보고했다. 일부 경우, 전체 평균 오류가 약 5% 상승했지만, 소수 그룹의 오류 감소가 더 큰 사회적 가치를 제공한다는 논의를 제시한다.
한계점으로는 최소‑최대 목표가 “최악의 그룹”에 과도하게 초점을 맞출 수 있어, 전체 성능을 희생하는 위험이 있다. 또한, 그룹 정의가 사전 지식에 의존하므로, 연속형 민감 변수(예: 소득) 등에 대한 확장성이 부족하다. 향후 연구에서는 다중 공정성 기준(예: 차별성, 균등성)과의 다목적 최적화, 그리고 라그랑주 승수의 자동 튜닝 기법을 탐색할 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기