위키피디아 편집 행동 예측 인사이트
초록
본 논문은 2011년 IEEE ICDM 위키피디아 편집자 행동 예측 콘테스트에서 사용된 데이터와 모델링 과정을 상세히 기술한다. 편집 이력의 다양한 통계량·시간적 특성을 특징으로 삼아 회귀 모델을 구축하고, 로그 변환·앙상블 기법을 통해 5개월 후 편집 횟수를 정확히 예측한다. 실험 결과는 최근 활동, 편집 다양성, 토론 참여 등이 미래 편집량을 설명하는 핵심 요인임을 보여준다.
상세 분석
이 연구는 위키피디아 신규 편집자의 장기 활동을 예측하기 위해 2010년 1월부터 2011년 5월까지 수집된 1,000여만 명의 편집 로그를 활용하였다. 목표 변수는 콘테스트가 제시한 ‘다음 5개월 동안의 편집 횟수’이며, 평가 지표는 로그 변환 후 평균 제곱근 오차(RMSLE)이다. 데이터는 편집 횟수의 극심한 왜도와 장기적인 비활성 기간을 포함하고 있어, 원시값을 그대로 모델에 투입하면 과대적합과 예측 편향이 발생한다는 점을 먼저 확인하였다.
특징 엔지니어링 단계에서는 (1) 총 편집 횟수, (2) 최근 30일·90일·180일 내 편집 빈도, (3) 편집한 고유 문서 수, (4) 편집 유형(본문, 토론, 사용자 페이지) 비율, (5) 편집 요약 길이와 키워드(‘revert’, ‘add’, ‘delete’) 등장 빈도, (6) 시간대·요일별 활동 패턴, (7) 편집 간 평균 간격과 표준편차 등 30여 개의 파생 변수를 생성하였다. 특히, ‘최근 활동 지표’와 ‘편집 다양성 지표’가 미래 편집량과 높은 상관관계를 보였으며, 로그 변환 후 선형 회귀와 트리 기반 모델에서 모두 중요한 변수로 선정되었다.
모델링에는 기본 선형 회귀, 라쏘·릿지 정규화, 랜덤 포레스트, 그래디언트 부스팅 머신(GBM), XGBoost 등을 적용하였다. 초기 실험에서 단순 선형 회귀는 RMSLE 0.78을 기록했으나, 트리 기반 모델은 0.62 수준으로 크게 개선되었다. 그러나 개별 모델은 과적합 위험이 존재했으며, 특히 고빈도 편집자를 대상으로 한 예측이 과도하게 편향되는 현상이 관찰되었다. 이를 완화하기 위해 5‑fold 교차 검증을 수행하고, 각 모델의 예측값을 가중 평균한 스태킹 앙상블을 도입하였다. 최종 앙상블은 RMSLE 0.55를 달성했으며, 이는 콘테스트 상위 5% 안에 들었다.
또한, 로그 변환을 적용한 목표 변수와 특징 변수의 스케일을 맞추는 것이 모델 수렴과 성능 향상에 결정적이었다. 로그 변환 후에도 0값(즉, 완전 비활성)의 비중이 높아, ‘Zero‑Inflated’ 특성을 고려한 포아송 회귀와 히든 마르코프 모델을 실험했지만, 트리 기반 앙상블이 전반적으로 우수한 결과를 보였다.
결과 분석에서는 (a) 최근 30일 내 편집 횟수가 가장 강력한 예측인자, (b) 편집한 고유 문서 수가 높을수록 장기 활동 지속 가능성이 크며, (c) 토론 페이지 편집 비중이 높은 편집자는 커뮤니티 적응도가 높아 향후 활동이 활발함을 시사한다는 점을 도출하였다. 또한, ‘revert’ 키워드가 빈번히 등장하는 편집자는 갈등 상황에 자주 연루되어 활동이 급격히 감소하는 경향을 보였다. 이러한 인사이트는 위키피디아 운영진이 신규 편집자 온보딩 프로그램을 설계하고, 이탈 위험이 높은 편집자를 조기에 식별하는 데 활용될 수 있다.