빅밴 이론: 온라인 콘텐츠 조정 행동의 전후 데이터셋
초록
본 논문은 Reddit과 V‑oat에서 2015‑2023년 사이에 시행된 25개의 다양한 조정 조치를 중심으로, 사전·사후 3개월 간의 사용자 활동을 수집·표준화한 ‘The Big Ban Theory (TBBT)’ 데이터셋을 공개한다. 339 125명의 사용자와 3 870 0732개의 게시물을 포함하며, 조정 전후의 인·아웃 활동을 네 가지 슬라이스(IN‑BEFORE, IN‑AFTER, OUT‑BEFORE, OUT‑AFTER)로 정리한다. 데이터 수집·정제 파이프라인, 메타데이터 스키마, 그리고 FAIR 원칙에 따른 접근 방식을 상세히 제시하고, 조정 효과 분석, 편향 탐색, 예측 모델 구축 등 다양한 연구 활용 사례를 제시한다.
상세 분석
이 논문은 온라인 콘텐츠 조정 연구의 근본적인 데이터 부족 문제를 해결하고자, ‘조정 중심(intervention‑centered)’ 데이터 모델을 제안한다. 기존 연구는 단일 혹은 소수의 조정 사건에 국한된 데이터셋을 사용해 비교 가능성이 낮고 재현성이 제한적이었다. TBBU는 25개의 조정 사건을 선정했으며, 이들 모두 Reddit에서 발생했지만 일부는 V‑oat으로의 사용자 이동을 포착한다는 점에서 플랫폼 간 이동(migration) 분석이 가능하도록 설계되었다.
데이터 모델은 시간축(조정 전·후)과 공간축(조정된 공간 내부·외부)이라는 두 축을 교차시켜 네 가지 데이터 슬라이스를 만든다. 특히 ‘IN‑AFTER’가 구조적으로 존재하지 않을 수 있는 커뮤니티 금지(ban) 상황에서도 ‘OUT‑AFTER’를 통해 조정 후 행동 변화를 추적한다는 점이 혁신적이다.
수집 파이프라인은 6단계로 구성된다. 1) 조정 시점 t₀를 기준으로 ±3개월 구간의 원시 데이터를 토렌트와 Zenodo 저장소에서 확보하고, 2) 동일 타임스탬프를 가진 댓글이 두 번 이상인 계정을 봇으로 간주해 제거한다. 3) 사전 3개월 동안 최소 10개의 메시지를 남긴 사용자만을 ‘영향받은 사용자’로 선정해 저활동 계정을 배제한다. 4) ‘IN‑AFTER’가 없을 경우, 해당 사용자가 다른 서브레딧이나 V‑oat에서 활동한 기록을 ‘OUT‑BEFORE/AFTER’로 수집한다. 5) 다양한 연도·플랫폼에 걸친 스키마 차이를 통일하기 위해 필드명을 표준화하고, 6) 모든 식별자를 결정론적 해시 함수로 가명화해 개인정보 보호를 강화한다.
데이터 구조는 최상위에 네 개의 폴더(IN‑BEFORE, IN‑AFTER, OUT‑BEFORE, OUT‑AFTER)를 두고, 각 폴더 안에 조정별 CSV 파일과 메타데이터 JSON을 배치한다. 메타데이터에는 조정 유형, 위반 사유, 적용된 서브레딧·커뮤니티, 조정 시점, 그리고 조정 대상 사용자 수 등이 포함된다.
FAIR 원칙에 따라 데이터는 Zenodo에 DOI(10.5281/zenodo.18245670)와 함께 공개되며, 라이선스는 CC‑BY‑4.0으로 재사용이 가능하다. 논문은 또한 데이터 활용 예시로 (1) 조정 효과의 기술적·통계적 분석, (2) 조정 편향(예: 특정 정치적 성향에 대한 과잉 적용) 탐색, (3) 사전 신호를 이용한 조정 결과 예측 모델 구축, (4) 조정 후 사용자 이동 및 커뮤니티 파편화(spill‑over) 연구 등을 제시한다.
핵심 인사이트는 다음과 같다. 첫째, 조정 전후 행동 변화를 네 가지 슬라이스로 구분함으로써 인과관계 추정에 필요한 대조군을 자연스럽게 구성할 수 있다. 둘째, 봇 필터링 및 최소 활동 기준을 적용해 데이터 품질을 높였으며, 이는 노이즈에 민감한 텍스트 기반 분석에서 중요한 전처리 단계다. 셋째, 플랫폼 간 이동 데이터를 포함함으로써 ‘탈플랫폼’ 효과를 정량화할 수 있다. 넷째, 표준화된 메타데이터와 가명화된 식별자를 제공함으로써 연구자 간 데이터 공유와 재현성을 크게 향상시킨다. 마지막으로, 이 데이터셋은 조정 정책 설계·평가에 필요한 실증적 근거를 제공함으로써, 보다 투명하고 공정한 온라인 거버넌스 구현에 기여할 잠재력을 가진다.
댓글 및 학술 토론
Loading comments...
의견 남기기