공정 모델 기반 클러스터링

본 논문은 클러스터링 과정에서 민감 속성의 비율을 전체 데이터와 동일하게 유지하도록 하는 공정성 제약을 모델 기반 혼합 모델에 결합한 새로운 알고리즘(FMC)을 제안한다. 파라미터 수가 데이터 규모와 무관해 미니배치 학습이 가능하고, 확률적 할당을 통해 범주형 데이터에도 적용할 수 있다. 이론적 수렴 및 일반화 보장을 제공하며, 기존 K‑means 기반 공정 클러스터링 대비 효율성과 정확도에서 우수함을 실험적으로 입증한다.

저자: Jinwon Park, Kunwoong Kim, Jihu Lee

공정 모델 기반 클러스터링
본 논문은 인공지능 시스템이 사회적 민감 영역에서 편향을 증폭시키는 문제를 인식하고, 특히 비지도 학습인 클러스터링 단계에서 공정성을 확보하는 방법을 탐구한다. 기존의 공정 클러스터링은 주로 K‑means 기반으로, 클러스터 중심과 데이터 할당을 동시에 최적화하면서 공정성 제약(예: 각 클러스터 내 민감 그룹 비율이 전체와 동일)을 만족시키려 한다. 그러나 이러한 접근은 할당 파라미터가 데이터 수 N에 비례하므로, 대규모 데이터에 적용하기 어렵고, 미니배치 학습이 불가능하며, 비메트릭(범주형) 데이터에 대한 확장성이 제한된다. 이를 해결하기 위해 저자들은 유한 혼합 모델(Finite Mixture Model)을 기반으로 한 공정 모델 기반 클러스터링(FMC)을 제안한다. 데이터 \(x_i\in\mathbb{R}^d\) 를 K개의 혼합 성분 \(f(\cdot;\theta_k)\) 와 혼합 가중치 \(\pi_k\) 로 표현하고, 각 데이터가 특정 클러스터에 속할 확률을 소프트 할당 \(\psi_k(x_i;\Theta)=p(Z_i=k|x_i,\Theta)\) 로 정의한다. 이때 \(\Theta=(\pi,\theta_1,\dots,\theta_K)\) 는 전체 데이터에 대해 고정된 파라미터 수를 갖는다. 공정성 측정은 기존의 Balance(비율 기반 최소값) 대신 차이 기반 Gap을 확장한 \(\Delta(\Theta)\) 로 정의한다. 구체적으로 \(\Delta(\Theta)=\max_k\big| \frac{1}{N_1}\sum_{i:s_i=1}\psi_k(x_i;\Theta) - \frac{1}{N_2}\sum_{j:s_j=2}\psi_k(x_j;\Theta) \big|\) 로, 각 클러스터 k 에서 두 민감 그룹의 비율 차이를 측정한다. 목표는 로그우도 \(\ell(\Theta|D)=\sum_i\log\big(\sum_k\pi_k f(x_i;\theta_k)\big)\) 를 최대화하면서 \(\Delta(\Theta)\le\epsilon\) 를 만족하는 것이다. 라그랑주 승수 \(\lambda\) 를 도입해 \(\ell(\Theta|D)-\lambda\Delta(\Theta)\) 를 최적화하는 형태로 변형한다. 최적화 방법으로 두 가지 알고리즘을 제시한다. 첫 번째는 FMC‑GD로, 파라미터 \(\eta\) (softmax 변환을 통해 \(\pi\) 를 표현)와 \(\theta\) 에 대해 직접 미분을 수행한다. 이때 \(\Delta\) 의 미분은 전체 데이터에 대한 비율 차이의 기울기로 계산되며, 학습률 \(\gamma\) 와 최대 반복 횟수 T 를 설정해 수렴한다. 두 번째는 FMC‑EM으로, 전통적인 EM 절차를 따르지만 M‑step에서 \(\Delta\) 를 포함한 목표함수 \(Q_{\text{fair}}(\Theta|\Theta^{(t)};\lambda)\) 를 최대화한다. 닫힌 형태 해가 없으므로 M‑step에서도 GD를 사용해 일반화 EM(GEM) 형태를 만든다. 두 알고리즘 모두 파라미터 수가 \(O(K)\) 로 고정돼 메모리와 연산량이 데이터 규모에 독립적이다. 대규모 데이터에 대한 실용성을 위해 미니배치 학습을 도입한다. 전체 데이터 대신 무작위 서브샘플 배치를 사용해 \(\Delta\) 를 근사하고, 이 근사값을 이용해 파라미터 업데이트를 수행한다. 저자는 이 방법이 \(\epsilon\) 수준의 공정성을 보장한다는 이론적 증명을 제공한다. 또한, 파라미터가 고정되어 있기 때문에 학습 후 새로운 테스트 샘플에 대해 \(\psi_k(x_{\text{new}};\Theta)\) 를 바로 계산해 할당할 수 있어, 순차적 데이터 스트리밍 상황에서도 적용 가능하다. 범주형 데이터에 대해서는 Gaussian 대신 다중항(멀티노미얼) 분포를 사용해 likelihood 를 정의함으로써 손쉽게 확장한다. 실험에서는 (1) 이미지 데이터셋(CIFAR‑10, ImageNet 서브셋)에서 기존 K‑means 기반 공정 클러스터링 대비 5~10배 빠른 수렴 속도와 비슷하거나 더 낮은 Gap/Balance 값을 기록했으며, (2) 텍스트 데이터(뉴스 기사)에서도 동일한 경향을 보였다. (3) 범주형 설문 데이터에서는 다중항 혼합 모델을 적용해 높은 클러스터링 정확도와 공정성을 동시에 달성했다. 또한, 미니배치 버전은 전체 데이터에 비해 메모리 사용량을 80% 이상 절감하면서도 공정성 지표가 크게 악화되지 않음을 확인했다. 이 논문의 주요 기여는 다음과 같다. (i) 파라미터 수가 데이터 규모와 무관한 모델 기반 공정 클러스터링 프레임워크 제시, (ii) 라그랑주 페널티와 미니배치 학습을 결합한 효율적 최적화 알고리즘(FMC‑GD, FMC‑EM) 개발, (iii) 비메트릭(범주형) 데이터에 대한 자연스러운 확장성 제공, (iv) 공정성 제약 하에서의 일반화 이론 및 수렴 보장 제공. 한계점으로는 \(\Delta\) 를 근사하는 배치 크기에 따라 공정성 보장이 약해질 수 있고, 라그랑주 파라미터 \(\lambda\) 의 선택이 경험적 튜닝에 의존한다는 점이다. 향후 연구에서는 자동 \(\lambda\) 조정, 다중 민감 속성(다중 그룹) 확장, 그리고 비선형 혼합 모델(예: 딥 베이즈 네트워크)과의 통합이 기대된다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기