데이터 과학 콘테스트로 사회적 문제 해결하기
본 논문은 교육, 공중보건, 지방정부 세 분야에서 데이터 과학 경진대회를 활용한 세 가지 사례를 제시한다. 각 사례는 비영리 조직이 내부 데이터 라벨링·예측 업무를 외부 인재에게 공개 경쟁 형태로 위임함으로써 비용 절감, 인력 확보, 모델 성능 향상을 달성한 과정을 설명한다. 마지막으로 오픈형 경쟁 모델이 제공하는 투명성, 커뮤니티 활성화, 지속 가능한 혁신 효과를 논의한다.
저자: Peter Bull, Isaac Slavitt, Greg Lipstein
본 논문은 사회적 가치 창출을 목표로 하는 비영리·공공기관이 직면한 데이터 과학 인력 부족과 높은 인건비 문제를 해결하기 위해 ‘오픈 데이터 과학 콘테스트’라는 모델을 제시한다. 서론에서는 기업들이 개인화 추천·광고 클릭 예측 등으로 데이터 과학을 활용해 경쟁 우위를 확보한 반면, 사회 부문은 동일한 기술을 적용할 자원이 부족하다는 점을 지적한다. 특히 2018년 미국에서 190,000개의 분석 직무가 미충족 상태이며, 평균 연봉이 98,000달러에 달한다는 McKinsey 보고서를 인용해 문제의 심각성을 강조한다. 이러한 배경에서 저자들은 공개형 경진대회를 통해 전 세계 데이터 과학자들을 문제 해결에 참여시키는 방식을 제안한다.
첫 번째 사례는 교육 분야의 Education Resource Strategies(ERS)이다. ERS는 공립학교 예산 데이터를 표준화된 카테고리로 라벨링하는 작업을 수작업으로 수행했으며, 연간 400시간 이상의 인력이 소요되었다. 논문은 45만 개 이상의 라벨링된 라인 아이템을 학습 데이터로 제공하고, 참가자들에게 9개의 카테고리 중 가장 높은 확률을 가진 라벨을 예측하도록 요구했다. 우승자는 로지스틱 회귀 모델에 고차원 피처(3‑gram, 페어와이즈 인터랙션, 해싱 트릭, TF‑IDF 등)를 결합해 90% 이상의 정확도와 75% 시간 절감 효과를 달성했으며, 이는 연간 약 1,000시간의 인력 절감에 해당한다.
두 번째 사례는 Planned Parenthood이 주관한 ‘Countable Care’이다. 이 프로젝트는 CDC와 National Survey of Family Growth(NSFG) 설문 데이터를 활용해 여성의 보건 서비스 이용을 예측하는 것이 목표였다. 설문은 조건부 질문 구조와 다량의 결측치를 포함하고 있어 데이터 전처리가 핵심 과제였다. 참가자들은 다중 임퓨테이션, 트리 기반 앙상블, 딥러닝 등 다양한 모델을 시도했으며, 최종적으로 베이스라인 대비 유의미한 예측 리프트를 달성했다. 코드와 모델은 Guttmacher Institute에 전달돼 향후 정책 연구와 서비스 설계에 활용될 예정이다.
세 번째 사례는 보스턴 시와 Harvard 경제학자들이 공동으로 진행한 ‘Keeping it Fresh’이다. 이 대회는 Yelp 리뷰와 식당 메타데이터를 이용해 보스턴 시의 위생 검사 효율성을 높이는 것이 목적이었다. 참가자들은 텍스트 마이닝, 시계열 분석, 공간적 특징을 결합한 하이브리드 모델을 구축했으며, 실제 검증 단계에서 30~50% 검사 생산성 향상을 기대할 수 있음을 확인했다. 현재 시청은 우승 알고리즘을 현장 실험에 적용 중이며, 향후 전면 도입을 검토하고 있다.
결론에서는 오픈 혁신이 비영리·공공 부문에 고급 데이터 과학 기술을 저비용으로 도입하게 하고, 전 세계 데이터 과학자와의 지속적인 교류를 통해 문제 해결 역량을 확대한다는 점을 강조한다. 또한, 경쟁 기반 모델은 투명한 평가 체계와 다수의 모델 탐색을 가능하게 하여, 단일 조직이 자체적으로 개발하기 어려운 고성능 알고리즘을 확보할 수 있게 한다. 논문은 향후 데이터 과학 콘테스트가 사회적 임팩트를 극대화하기 위한 표준화된 플랫폼과 베스트 프랙티스 공유가 필요함을 제언한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기