대규모 P2P 네트워크에서 아동음란 활동 정량화

초록

본 논문은 eDonkey P2P 시스템에서 수백만 건의 검색어를 수집·분석하여, 아동음란 검색어와 이를 입력한 사용자의 비율을 정밀하게 추정한다. 전문가 검증을 거친 탐지 도구의 오류율을 보정한 결과, 전체 검색어의 약 0.25%가 아동음란이며, 전체 이용자 중 0.2% 이상이 해당 검색어를 입력한 것으로 밝혀졌다.

상세 요약

이 연구는 P2P 파일 공유 환경에서 불법 아동음란 콘텐츠 탐지를 위한 체계적인 방법론을 제시한다. 먼저, 저자들은 eDonkey 네트워크의 트래픽을 장기간(약 9개월) 동안 캡처하여 2억 5천만 건 이상의 키워드 기반 검색어를 확보하였다. 데이터는 IP 주소와 포트, 타임스탬프 등 메타데이터와 함께 저장돼, 이후 사용자 식별 및 행동 분석에 활용될 수 있다.

핵심은 ‘아동음란 검색어 탐지기’를 설계한 점이다. 탐지기는 사전 정의된 키워드 리스트와 정규표현식, 그리고 부정확한 철자·동의어를 포괄하는 규칙 기반 필터를 결합한다. 탐지기의 성능을 검증하기 위해 1,000개의 샘플 검색어를 무작위 추출하고, 아동보호 전문가 3명이 라벨링하였다. 그 결과, 위양성율(False Positive Rate, FPR)은 1.2%, 위음성율(False Negative Rate, FNR)은 6.8%로 보고되었다. 이러한 오류율을 베이즈 추정에 적용해 실제 아동음란 검색어 비율을 보정하였다.

사용자 측면에서는 IP 주소와 포트 조합을 ‘가상 사용자’로 정의하고, 동일 IP 내에서 다중 포트를 이용하는 경우를 분리하였다. 또한, NAT와 프록시 사용으로 인한 혼합 사용자를 최소화하기 위해 세션 기반(연속적인 요청 간 간격 ≤ 30분) 클러스터링을 적용했다. 이를 통해 중복 카운트를 제거하고, 실제 고유 사용자의 수를 추정하였다.

결과적으로, 전체 검색어 중 아동음란 검색어 비율은 0.25% (95% 신뢰구간 0.22–0.28%)이며, 고유 사용자 중 아동음란 검색어를 입력한 비율은 0.21% (95% CI 0.18–0.24%)로 나타났다. 이는 기존 연구가 제시한 0.01% 수준보다 두 배 이상 높은 수치이며, P2P 환경에서도 아동음란 활동이 일정 규모로 존재함을 실증한다.

한계점으로는 IP 기반 사용자 식별의 불완전성, 탐지기 규칙의 고정성(새로운 은어·코드워드에 대한 적시 대응 어려움), 그리고 eDonkey 외 다른 P2P 프로토콜에 대한 일반화 어려움이 제시된다. 향후 연구에서는 머신러닝 기반 텍스트 분류와 동적 키워드 업데이트, 그리고 다중 P2P 네트워크 간 교차 분석을 통해 정확도를 높일 필요가 있다.

초록

상세 요약

📜 논문 원문 (영문)