데이터 과학 문제 정의와 공정성 탐구

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

데이터 과학 프로젝트는 고수준 목표를 구체적인 문제로 전환하는 과정에서 다양한 선택과 협상이 이루어진다. 이 논문은 기업 데이터 과학 팀을 6개월간 현장 관찰한 결과, 문제 정의 단계가 매우 유동적이며 규범적 고려가 거의 반영되지 않음을 밝혀낸다. 문제 정의 자체가 공정성 판단에 큰 영향을 미치므로, 효과적인 윤리적 개입은 문제 정의 과정에 직접 개입해야 함을 주장한다.

상세 분석

이 연구는 사회학·과학사·비판적 데이터 연구의 이론적 틀을 바탕으로, 기업 내 데이터 과학 팀의 일상적 작업을 심층적으로 탐색한다. 연구자는 6개월에 걸친 참여 관찰과 인터뷰를 통해 문제 정의가 단순히 비즈니스 목표를 반영하는 것이 아니라, 조직 구조, 이해관계자 요구, 기술적 제약, 데이터 가용성 등 복합적인 요인에 의해 지속적으로 재협상되는 과정을 포착한다. 특히, 목표 변수와 프록시 선택이 ‘자명한’ 것으로 간주되지만, 실제로는 여러 이해당사자 간의 권력 관계와 가치 판단이 개입된 ‘재량적 작업’임을 강조한다. 이러한 재량은 모델링 단계에서의 공정성 지표 적용과는 별개로, 이미 문제 자체가 어느 집단에 혜택을 주거나 손해를 끼칠지를 미리 결정한다. 논문은 기존 공정성 연구가 모델 성능·알고리즘 편향에 초점을 맞추는 반면, 문제 정의 단계에서의 규범적 검토가 결여돼 있다는 비판적 시각을 제공한다. 연구자는 문제 정의가 ‘탄력적(elastic)’이며, 명시적 윤리 검토 없이도 조직 내 관행과 비용 효율성에 의해 특정 형태가 지속적으로 선택된다고 지적한다. 따라서 공정성을 확보하려면 문제 정의 단계에서 이해관계자와의 협의, 대안적 목표 변수 탐색, 그리고 윤리적 체크리스트 도입 등 실천적 메커니즘이 필요하다. 이와 같은 접근은 데이터 과학 프로젝트가 ‘어떤 문제’를 풀 것인가에 대한 근본적인 질문을 재조명함으로써, 기술적 공정성 논의를 보다 포괄적이고 실천 가능한 차원으로 확장한다.

데이터 과학 문제 정의와 공정성 탐구

초록

상세 분석

댓글 및 학술 토론

의견 남기기