모바일 전화 데이터로 개인 고용 상태 추정
초록
본 연구는 이동통신 로그와 가구 조사 데이터를 결합해 개인의 고용 여부와 직업군을 예측하는 모델을 개발하였다. 재무·사회·이동성 지표 30여 개를 특징으로 사용했으며, 18개 직업 카테고리 중 실업을 70.4% 정확도로 식별한다. 예측 결과는 기지국 수준의 지리적 지도에 집계돼 도시·농촌의 노동시장 불균형을 실시간으로 파악할 수 있다.
상세 분석
이 논문은 개발도상국의 고용 상황을 실시간으로 모니터링하기 위한 새로운 방법론을 제시한다. 데이터는 한 통신사의 6개월 치 CDR(Call Detail Record)과 위치 기록을 활용했으며, 이를 가구 조사와 매칭해 2,500명 이상의 라벨링된 샘플을 구축하였다. 특징 설계는 크게 세 축으로 나뉜다. 첫째, 재무 행동 지표는 통화·문자 요금, 충전 패턴, 프리페이드 잔액 변동성을 통해 개인의 현금 흐름과 소비 여력을 추정한다. 둘째, 사회적 연결망 지표는 통화·문자 교류 빈도, 상호작용 네트워크 중심성, 통화 상대의 고용 상태(가능한 경우) 등을 포함한다. 셋째, 이동성 지표는 일일 이동 거리, 체류지 다양성, 정규 출퇴근 패턴 유무 등을 측정한다. 이러한 30여 개 변수를 기반으로 XGBoost와 랜덤 포레스트 등 앙상블 모델을 학습시켰으며, 교차 검증 결과 전체 18개 직업군 중 실업을 70.4% 정확도, 정밀도 0.68, 재현율 0.71로 식별했다. 다른 직업군(예: 농업, 서비스, 제조)에서도 평균 62% 이상의 정확도를 보였으며, 특히 이동성이 낮고 통화량이 적은 사용자를 실업으로 분류하는 경향이 뚜렷했다. 모델 해석을 위해 SHAP 값을 활용했는데, 충전 빈도 감소, 통화 네트워크 중심성 감소, 이동 반경 축소가 실업 예측에 가장 큰 기여를 하는 것으로 나타났다. 지리적 집계 단계에서는 개별 예측을 각 기지국 커버리지에 매핑해 실업률 지도를 생성했으며, 이는 공식 통계(노동부 조사)와 Pearson 상관계수 0.73을 기록, 기존 인구조사 주기보다 훨씬 빠른 시계열 업데이트가 가능함을 시사한다. 한계점으로는 데이터 편향(통신사 가입자 특성), 라벨링 오류(설문 응답 누락), 프라이버시 보호를 위한 익명화 과정에서 정보 손실 가능성을 들었다. 향후 연구에서는 다중 통신사 데이터 통합, 심층 신경망 기반 시계열 모델 적용, 그리고 정책 시뮬레이션을 통한 실업 지원 프로그램 효과 평가가 제안된다.