“절차를 넘어선 공정성: 컨포멀 예측의 실질적 형평성 탐구”
📝 Abstract
Conformal prediction (CP) offers distribution-free uncertainty quantification for machine learning models, yet its interplay with fairness in downstream decision-making remains underexplored. Moving beyond CP as a standalone operation (procedural fairness), we analyze the holistic decision-making pipeline to evaluate substantive fairness-the equity of downstream outcomes. Theoretically, we derive an upper bound that decomposes prediction-set size disparity into interpretable components, clarifying how label-clustered CP helps control method-driven contributions to unfairness. To facilitate scalable empirical analysis, we introduce an LLM-in-the-loop evaluator that approximates human assessment of substantive fairness across diverse modalities. Our experiments reveal that label-clustered CP variants consistently deliver superior substantive fairness. Finally, we empirically show that equalized set sizes, rather than coverage, strongly correlate with improved substantive fairness, enabling practitioners to design more fair CP systems. Our code is available at https://github.com/layer6ai-labs/llm-in-the-loop-conformal-fairness .
💡 Analysis
**
1. 연구 배경 및 동기
- 절차적 공정성 vs. 실질적 공정성: 기존 CP 연구는 주로 절차적 보장(예: 동일 커버리지)만을 다루었으며, 이러한 보장이 downstream 의사결정에서의 형평성에 미치는 영향을 간과했다.
- 고위험 분야(헬스케어, 금융 등)에서는 불확실성 정량화가 신뢰성 확보에 핵심이므로, CP의 설계가 실질적 결과에 미치는 파급효과를 이해하는 것이 필수적이다.
2. 주요 기여
| 번호 | 내용 | 의의 |
|---|---|---|
| ① | LLM‑in‑the‑loop 공정성 평가 프레임워크 구축 | 인간 실험의 비용·시간·피로도를 대폭 감소시키면서, 다양한 모달리티와 대규모 데이터에 적용 가능. |
| ② | 절차적 특성과 실질적 공정성 연결: 집합 크기 균등화가 실질적 공정성과 강한 양의 상관관계를 보이며, 커버리지 균등화는 오히려 부정적 영향을 줄 수 있음을 실증. | CP 설계 목표를 “커버리지”에서 “집합 크기”로 전환하도록 제시. |
| ③ | 라벨‑클러스터드 CP 이론·실험 검증: 집합 크기 불균형을 세 가지 해석 가능한 요소(클러스터 내 라벨 이질성, 클러스터 간 스프레드, 라벨‑그룹 간 차이)로 분해한 상한을 도출하고, 라벨‑클러스터링이 이 요소들을 효과적으로 억제함을 증명. | 기존 마진·몬드리안 CP 대비 실질적 공정성 향상 메커니즘을 명확히 설명. |
3. 이론적 분석
- Theorem 4.1:
\
📄 Content
컨포멀 예측(CP)(Vovk et al., 2005; Shafer & Vovk, 2008)은 잘 정의된 절차를 통해 유한 표본, 분포에 구애받지 않는 통계적 보장을 제공한다. 그러나 이러한 절차적 보장이 하위 의사결정 단계에서 공정한 결과로 이어지는지는 아직 명확하지 않다. 고위험 분야에서는 신뢰할 수 있는 불확실성 정량화가 신뢰성 있는 모델을 구축하는 데 필수적이다. 데이터 분포에 대한 강한 가정을 필요로 하는 다른 방법들(Gal & Ghahramani, 2016; Lakshminarayanan 등, 2023)과 달리, 특히 의료·금융과 같은 규제된 분야에서는 공정성이 두 가지 보완적인 관점으로 이해된다.
- 절차적 공정성 – 의사결정 과정 자체의 무결성을 다루며(예: 무지에 의한 공정성(Zemel et al., 2013; Kusner et al., 2017)),
- 실질적 공정성 – 그룹 간 결과의 형평성을 중시한다(예: Equalized Odds(Hardt et al., 2016)).
기존 CP 연구는 주로 절차적 공정성에 초점을 맞추어 CP를 독립적인 프로세스로 다루었다(Romano et al., 2020a). 실제로 CP는 하위 의사결정을 포함하는 더 큰 파이프라인의 한 단계에 불과하다. 이 넓은 맥락에서 CP와 절차적·실질적 공정성 개념 간의 상호작용은 아직 충분히 이해되지 않았다(Cresswell, 2025).
본 연구에서는 CP를 독립적인 연산으로 보는 관점을 넘어, 전체 의사결정 파이프라인을 통합적으로 분석한다. 궁극적인 공정성은 실질적 결과에 의해 정의되지만, CP 내부의 절차적 선택이 이러한 결과를 형성하는 데 중요한 역할을 한다. 우리는 절차적 특성과 실질적 공정성 사이의 구체적인 연결 고리를 밝히고, 하위 단계의 형평성을 긍정적으로 영향을 미치는 절차를 설계하고자 한다. 전체 파이프라인의 출현적 속성으로서 공정성을 평가함으로써, 단순히 수행적(performance‑centric)인 절차적 지표와 실제 공정한 결과를 이끄는 지표를 구분할 수 있다.
주요 기여
확장 가능한 LLM‑in‑the‑loop 공정성 평가
인간 피험자 실험은 자원 소모가 크다. 우리는 대규모 언어 모델(LLM)을 활용해 인간의 의사결정 행동을 근사하는 평가 프로토콜을 설계하였다. 이 평가자는 인간‑in‑the‑loop 벤치마크와 비교해 유사한 결과를 산출함을 검증했으며, 이를 통해 기존 연구보다 더 다양한 데이터셋·알고리즘에 대해 실질적 공정성을 확장해서 분석할 수 있다.절차적 특성과 실질적 공정성 연결
절차적 CP 지표와 실질적 결과 사이의 관계를 명시적으로 매핑한다. 특히 Equalized Set Size가 실질적 공정성 향상과 강하게 상관관계가 있는 반면, 전통적인 Equalized Coverage는 오히려 부정적인 영향을 미칠 수 있음을 발견하였다. 이 통찰은 설계 목표를 “coverage parity”에서 “set‑size parity”로 전환하도록 만든다.라벨‑클러스터링 CP에 대한 이론·실험 검증
집합 크기와 실질적 공정성 간의 연관성을 바탕으로 라벨‑클러스터링 CP를 분석한다. 우리는 집합 크기 불균형을 해석 가능한 구성 요소로 분해하는 이론적 상한을 도출하고, 실험을 통해 라벨‑클러스터링 CP가 마진 또는 그룹‑조건부 접근법보다 집합 크기 격차를 더 효과적으로 감소시키며, 실질적 공정성 지표에서도 가장 우수함을 확인하였다.
기본 정의 및 수식
입력 (x \in X \subset \mathbb{R}^d)와 정답 레이블 (y \in Y = [m] := {1,\dots,m})가 결합 분포 ((x,y) \sim P)에서 추출된다고 하자.
분류기 (f : X \rightarrow \Delta^{m-1} \subset \mathbb{R}^m)는 예측 확률을 출력하고, (\Delta^{m-1})은 ((m-1))‑차원 확률 단순체이다.
CP는 집합값 함수 (C : X \rightarrow \mathcal{P}(Y)) (여기서 (\mathcal{P}(Y))는 (Y)의 멱집합) 를 구성하여 다음과 같은 마진 커버리지 보장을 만족한다.
[ \Pr_{(x,y)\sim P}\bigl[ y \in C(x) \bigr] \ge 1-\alpha, ]
여기서 (\alpha \in [0,1])은 사용자가 지정하는 수준이다(Vovk et al., 1999; 2005).
커버리지 달성을 위한 절차
- 캘리브레이션 데이터 (D_{\text{cal}} = {(x_i, y_i)}{i=1}^{n{\text{cal}}}) 를 보유한다.
- 컨포멀 점수 함수 (s : X \times Y \rightarrow \mathbb{R}) 를 정의한다. 점수가 클수록 후보 레이블과 입력 사이의 부합도가 낮다.
- 각 캘리브레이션 샘플에 대해 (S_i := s(x_i, y_i)) 를 계산하고, 경험적 임계값
[ q_\alpha := \operatorname{Quantile}\tau^\alpha(S_1,\dots,S{n_{\text{cal}}}) \in \mathbb{R} ]
을 구한다.
- 테스트 포인트 (x_{\text{test}})에 대해
[ C(x_{\text{test}}) = {, y \in Y \mid s(x_{\text{test}}, y) \le q_\alpha ,} ]
을 집합으로 만든다.
위 절차는 어떤 점수 함수 (s)에 대해서도 (1)식의 커버리지를 보장한다. 그러나 집합 크기 (|C(x)|)가 작을수록 하위 불확실성 정량화 작업에 더 유용하다(Cresswell et al., 2024). 평균 집합 크기 (\mathbb{E}[|C|])는 점수 함수 (s)의 품질, 즉 분류기 (f)의 정확도·캘리브레이션 정도에 좌우된다. APS(Romano et al., 2020b), RAPS(Angelopoulos et al., 2021), SAPS(Huang et al., 2024)와 같은 효율적인 점수 함수는 커버리지를 유지하면서 (\mathbb{E}[|C|])를 최소화한다.
공정성 개념
민감한 그룹 레이블의 유한 집합을 (A = [k_g])라 하고, 그룹 할당 함수 (g : X \rightarrow A)를 정의한다. 각 그룹은
[ G_a := {, x \in X \mid g(x)=a ,} ]
으로 표기한다.
차별 금지 기준
전통적인 점예측(supervised) 상황에서 통계적 공정성은 그룹 간 예측 행동의 동등성을 요구한다. 예를 들어 Demographic Parity는
[ \Pr(\hat{Y}=1 \mid A=a) = \Pr(\hat{Y}=1 \mid A=b) ]
를 만족한다. Equalized Odds는 실제 레이블을 조건으로 추가한다(Hardt et al., 2016). 이러한 기준은 결과가 그룹 소속에 의해 체계적으로 왜곡되지 않도록 보장하며, 규제 프레임워크(OCC, 2026)와 머신러닝 분야(Green, 2022)에서 실질적 공정성의 핵심 패러다임이다.
CP에서의 차별 금지
CP에서는 그룹‑조건부 커버리지를 통해 차별 금지 공정성을 정의한다. 즉,
[ \Pr\bigl[ y \in C(x) \mid g(x)=a \bigr] = 1-\alpha,\quad \forall a \in A, ]
을 만족하면 Equalized Coverage라 부른다(Romano et al., 2020a). Mondrian CP는 사전 정의된 그룹 함수 (g)를 이용해 각 그룹별로 별도 임계값을 캘리브레이션함으로써 위 식을 만족한다(Vovk et al., 2003). 그러나 캘리브레이션 샘플을 그룹별로 나누면 각 그룹당 표본 수가 감소해 경험적 커버리지의 분산이 커진다(Zwart, 2025; Gibbs et al., 2025).
Equalized Coverage는 예측 집합 자체의 구성에 초점을 맞춘 절차적 공정성 개념이며, 집합이 실제 하위 의사결정에 어떻게 활용되는지는 반영하지 않는다. Cresswell et al. (2025)는 무작위 대조 실험을 통해 커버리지를 동일하게 맞추는 것이 실제 의사결정 단계에서 **불균형한 영향(disparate impact)**을 초래한다는 사실을 밝혀냈다. 이에 대한 대안으로 Equalized Set Size가 제안되었으며, 이는 절차적이지만 실질적 불균형 감소와 더 높은 상관관계를 보인다.
기타 CP 변형
- Exact Conditional Coverage는 모든 (x)에 대해 커버리지를 보장하려 하지만, 강한 가정 없이는 불가능함이 알려져 있다(Vovk, 2012; Lei et al., 2013; Foygel‑Barber et al., 2021).
- Clustered Conformal Prediction(Ding et al., 2023)은 라벨별 난이도에 맞춰 임계값을 조정함으로써 사전 정의된 그룹 없이도 조건부 커버리지를 개선한다.
- Label‑Clustered와 Group‑Clustered CP는 각각 라벨 공간과 그룹 공간을 학습된 클러스터링 함수 (h : A \rightarrow [K])에 의해 군집화하고, 각 군집마다 독립적인 임계값을 캘리브레이션한다.
- Backward CP(Gauthier et al., 2025)는 전통적인 “커버리지를 고정하고 집합 크기를 가변”하는 접근을 뒤집어, 데이터 의존적인 크기 제한 (T)를 두고 완화된 마진 커버리지를 제공한다. 이때 사용되는 e‑value 기반 임계값은 집합 크기 제한을 만족하도록 설계된다.
위 변형들의 상세 수식과 의사코드는 부록 B에 제시되어 있다.
연구 동향 및 문제점
CP 공정성 연구는 아직 초기 단계이며, 최근 여러 새로운 방향이 제시되
이 글은 AI가 자동 번역 및 요약한 내용입니다.