EU GDPR이 머신러닝에 부과하는 자동결정·설명권 규제
본 논문은 2018년 시행되는 EU 일반 데이터 보호 규정(GDPR)이 자동화된 개인 의사결정과 프로파일링에 미치는 영향을 분석한다. 특히 자동결정 금지 조항과 ‘설명권’ 조항이 머신러닝 모델 설계·운용에 요구하는 기술적·법적 과제를 제시하고, 차별 방지와 설명 가능성 확보를 위한 연구 방향을 제안한다.
저자: Bryce Goodman, Seth Flaxman
본 논문은 2016년 EU 의회가 채택한 일반 데이터 보호 규정(GDPR)이 머신러닝 및 자동화된 의사결정 시스템에 미치는 영향을 체계적으로 검토한다. GDPR은 2018년 5월 시행을 목표로 하며, 개인 데이터의 수집·저장·처리에 관한 전반적인 규칙을 EU 전역에 일관되게 적용한다. 특히 제22조는 “자동화된 개인 의사결정, 포함 프로파일링”이 데이터 주체에게 실질적인 법적·경제적 영향을 미칠 경우, 사전 동의 없이는 금지한다는 강력한 조항을 도입한다. 이 조항은 신용점수 산정, 보험료 산정, 맞춤형 광고, 추천 시스템 등 기존에 자동화된 방식으로 운영되던 서비스 전반에 직접적인 제약을 가한다.
예외 조항은 세 가지 경우에만 허용된다. 첫째, 계약 이행을 위해 반드시 필요한 경우, 둘째, EU 혹은 회원국 법령에 의해 허용된 경우, 셋째, 데이터 주체가 명시적으로 동의한 경우이다. 그러나 예외가 적용되더라도 제22조 3항에 따라 “인간 개입”, “의견 진술”, “결정에 대한 이의 제기”와 같은 적절한 안전장치를 제공해야 한다는 의무가 남는다. 이는 자동화된 시스템이 최종 결정을 내리더라도 인간이 최종 검토·조정할 수 있는 메커니즘을 구축하도록 강제한다.
논문은 차별 방지 측면을 상세히 논의한다. EU 기본권 헌장, 인권 협약, 그리고 EU 조약 전반에 걸쳐 차별 금지 원칙이 명시되어 있으며, GDPR 부속서 제9조는 인종·민족·정치·종교·노조·유전·생체·건강·성적 지향 등 ‘민감 데이터’를 특별히 보호한다. 프로파일링이 이러한 민감 데이터를 직접 사용하거나, 민감 데이터와 상관관계가 높은 변수를 사용함으로써 차별적 결과를 초래할 경우, 데이터 컨트롤러는 차별을 방지하기 위한 “적절한 기술·조직적 조치” 를 취해야 한다.
저자는 차별 방지에 대한 두 가지 해석을 제시한다. 최소 해석은 민감 데이터 자체만을 금지하는 것이며, 이는 변수 제거만으로 차별을 완전히 차단하기 어렵다. 예를 들어, 우편번호는 인종 정보를 내포하고 있으면서도 대출 위험 예측에 유용한 정보를 제공한다. 반면 최대 해석은 민감 데이터와 상관관계가 있는 모든 변수를 금지하도록 요구한다. 이는 데이터 전처리 단계에서 복잡한 상관관계를 모두 식별하고 제거해야 함을 의미하지만, 현실적으로는 대규모 데이터셋에서 모든 연관성을 파악하는 것이 거의 불가능하고, 모델 성능을 크게 저하시킬 위험이 있다.
또한 논문은 “불확실성 편향”(uncertainty bias)이라는 새로운 차별 메커니즘을 소개한다. 소수 집단이 표본에서 과소대표될 경우, 해당 집단에 대한 예측 불확실성이 커지고, 위험 회피형 의사결정 알고리즘은 불확실성이 큰 예측을 회피한다. 실험에서는 로지스틱 회귀 모델을 사용해 백분율이 30% 미만인 경우 비백인 집단에 대출이 거절되는 현상을 재현하였다. 이는 데이터 불균형이 차별을 야기할 수 있음을 보여준다.
‘설명권’에 대해서는 GDPR 제13‑15조가 데이터 주체에게 자신에 관한 데이터 접근·통지를 보장하고, 프로파일링 시 “논리적 근거에 대한 의미 있는 정보”를 제공하도록 요구한다. 현재 많은 머신러닝 모델, 특히 딥러닝은 내부 구조가 복잡해 인간이 이해하기 어려운 블랙박스 형태이다. 따라서 연구자들은 모델‑agnostic 설명 기법(LIME, SHAP 등), 규칙 기반 모델, 혹은 사후 해석 기법을 활용해 의사결정 과정을 인간이 이해할 수 있는 형태로 변환하는 작업이 필요하다.
결론적으로, GDPR은 자동화된 의사결정과 프로파일링에 대한 법적·윤리적 기준을 명확히 함으로써 산업계에 큰 도전 과제를 제시한다. 그러나 이러한 규제가 차별 방지와 투명성 확보를 위한 기술 혁신을 촉진할 수 있다는 점도 강조한다. 연구자와 실무자는 (1) 차별을 최소화하는 데이터 수집·전처리 전략, (2) 불확실성 편향을 완화하는 샘플링·활성학습 설계, (3) 인간 개입·이의 제기 메커니즘을 내재한 시스템 아키텍처, (4) 설명 가능한 모델 및 해석 도구 개발에 집중해야 한다. 이러한 방향은 GDPR을 준수하면서도 경쟁력 있는 머신러닝 서비스를 제공하는 길이 될 것이다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기