공식 통계에서 머신러닝 활용 현황
초록
본 논문은 독일 연방통계청(Destatis)이 2018년 상반기에 수행한 ‘머신러닝 개념 증명(Proof of Concept)’ 프로젝트의 일환으로, 국내·외 통계기관을 대상으로 실시한 설문조사 결과를 정리한다. 설문을 통해 통계 분야별·업무별 머신러닝 적용 사례, 사용된 알고리즘·소프트웨어, 프로젝트 단계 등을 파악하고, 이를 GSBPM(통계 생산 프로세스 모델) 단계와 매핑한다. 주요 결과는 분류·식별·회귀·클러스터링 등 전통적인 통계 과업에 머신러닝이 활발히 도입되고 있으며, 의사결정나무, 랜덤 포레스트, 신경망, SVM 등이 가장 많이 사용된다는 점이다.
상세 분석
이 연구는 두 차례의 설문조사와 내부 조사(In‑house survey)를 결합한 혼합형 연구 설계로 진행되었다. 첫 번째 설문은 독일 14개 연방주 통계청과 18개 기타 국가기관(ONA)에게 Excel 기반 구조화 질문지를 배포했으며, 응답률은 100%에 달했다. 두 번째 설문은 EU 27개 회원국, 4개 EFTA 국가, 6개 비유럽 국가(호주·캐나다·이스라엘·일본·뉴질랜드·미국) 및 국제기구(EUROSTAT·OECD) 등에 전송했지만, 응답률은 낮아 21개 기관만이 실제 프로젝트 정보를 제공하였다.
응답 기관이 보고한 총 36건(국내)·36건(국제) 규모의 머신러닝 프로젝트는 크게 네 가지 단계로 구분된다. 21건은 이미 생산 단계에 진입했으며, 28건은 생산용 개발 단계, 61건은 실험·시험 단계, 26건은 아이디어 단계에 머물러 있다. 이는 머신러닝이 아직 초기 도입 단계에 머무르는 경우가 많지만, 동시에 실제 운영에 적용되는 사례도 점차 늘어나고 있음을 시사한다.
프로젝트에 활용된 알고리즘을 살펴보면, 의사결정나무 기반 방법(Decision Tree, Random Forest 등)이 59건 중 31건(≈52%)을 차지했고, 신경망(Neural Networks)과 서포트 벡터 머신(SVM)도 각각 22건(≈37%)과 22건(≈37%)으로 높은 비중을 차지한다. ‘기타’ 항목에는 Gradient Boosting, k‑Nearest Neighbour, 베이지안 접근법 등이 포함되어 있다. 알고리즘 선택은 주로 과제 특성(분류·회귀·클러스터링 등)과 데이터 규모·구조에 따라 달라졌다.
응용 분야는 크게 ‘분류(Classification)’, ‘식별(Identification)’, ‘클러스터링(Clustering)’, ‘텍스트 분석(Text Analysis)’, ‘회귀(Regression)’ 등으로 구분되었다. 특히 분류와 식별이 전체 56건 중 30건(≈54%)을 차지했으며, 이는 통계청이 마이크로데이터 연계, 기업·가구 단위 특성 파악, 실업 기간 예측 등에서 자동화된 라벨링을 필요로 하기 때문이다. 회귀와 텍스트 분석도 각각 9건·8건으로 눈에 띄는 비중을 보였다.
통계 생산 프로세스 모델(GSBPM)과의 매핑 결과, 머신러닝은 주로 ‘데이터 수집(Data Acquisition)’, ‘데이터 준비(Data Preparation)’, ‘결과 분석(Result Analysis)’ 단계에 활용된다. 일부 프로젝트는 ‘통계 개념 설계(Statistical Conceptualisation)’, ‘사용자 서비스(User Service)’, ‘평가(Evaluation)’ 단계에도 적용돼, 전통적인 통계 파이프라인 전반에 걸쳐 머신러닝이 통합될 가능성을 보여준다.
국내외 비교에서는 캐나다 통계청이 가장 많은 36건의 프로젝트를 보고했으며, 네덜란드와 미국 노동통계국이 각각 16건·11건으로 뒤를 이었다. 독일 연방통계청 자체는 36건 중 5건만이 생산 단계에 있었으며, 대부분은 임금·실업·보건 데이터에 대한 결측치 보정, 실업 기간 예측, 노동시장 구역 분류 등에 초점을 맞추었다.
전체적으로 이 연구는 공식 통계기관이 머신러닝을 도입함에 있어 ‘알고리즘 선택’, ‘프로젝트 단계 관리’, ‘데이터 보안·프라이버시’ 등 실무적 과제가 아직 남아 있음을 강조한다. 또한, 국제 협력과 표준화된 문서화(‘Machine Learning Documentation Initiative’)가 향후 머신러닝 기반 통계 생산의 품질과 투명성을 확보하는 데 핵심적인 역할을 할 것으로 전망한다.
댓글 및 학술 토론
Loading comments...
의견 남기기