필터 리스트 성장과 효율성 크라우드소싱 광고 차단의 현주소
초록
이 논문은 가장 널리 사용되는 광고 차단 필터 리스트인 EasyList의 9년간 변천사를 분석하고, 10 000개 웹사이트에 적용한 실험을 통해 90 % 이상의 규칙이 실제 브라우징에서 전혀 활용되지 않음을 밝혀냈다. 규칙 추가·삭제 비율, 기여자 구조, 광고주의 회피 전략 등을 정량화하고, 모바일 및 데스크톱 환경에서 99 % 이상의 차단 효과를 유지하면서 처리 속도를 62.5 % 향상시킬 수 있는 최적화 방안을 제시한다.
상세 분석
본 연구는 EasyList라는 단일 필터 리스트를 대상으로 세 가지 축에서 심층 분석을 수행한다. 첫째, GitHub 커밋 로그를 일일 단위로 집계해 9년 동안 124 615개의 규칙이 추가되고 52 146개의 규칙이 삭제된 결과, 전체 규칙 수가 72 469개 이상 증가했음을 확인했다. 규칙 삽입 빈도는 평균 20시간, 중앙값 1.12시간으로 매우 빈번하며, 2013년 Fanboy 리스트와의 병합으로 급격히 증가한 시점이 관찰되었다. 둘째, 기여자 분석에서는 6 000명 이상의 포럼 회원이 존재하지만 실제 커밋을 수행한 핵심 기여자는 5명에 불과했으며, 이들이 전체 커밋의 76.9 %를 차지한다는 ‘소수 정예’ 현상이 드러났다. 셋째, 규칙 수명 분석에서는 삭제된 규칙의 절반이 3.8년(45.5개월) 이상 리스트에 남아 있었으며, 이는 오래된 규칙이 지속적으로 남아 ‘죽은 무게(dead weight)’가 축적되는 구조적 문제를 시사한다.
다음으로, 10 000개 사이트(상위 5 000개와 꼬리 부분을 균등 샘플)에서 2개월간 매일 최신 EasyList를 적용한 실험 결과, 전체 규칙 중 90.16 %가 한 번도 매치되지 않았으며, 평균 매치된 규칙은 일일 2.3개에 불과했다. 신규 규칙은 기존 규칙에 비해 매치율이 현저히 낮았으며, 이는 광고주가 기존 규칙을 회피하기 위해 URL을 변형하거나 새로운 도메인으로 이전하는 전략을 지속적으로 사용하고 있음을 의미한다. 연구진은 이러한 회피 행위를 2 000건 이상 포착하고, ‘도메인 교체’, ‘쿼리 파라미터 변조’, ‘동적 스크립트 삽입’ 등 네 가지 주요 패턴으로 분류하였다.
마지막으로, 저자는 ‘필터 규칙 프리필터링’과 ‘핵심 규칙 집합’이라는 두 가지 최적화 방안을 제시한다. 프리필터링 단계에서는 규칙을 URL 패턴별로 해시 테이블에 매핑해 불필요한 문자열 매칭을 사전에 차단하고, 핵심 규칙 집합은 과거 30일간 매치된 규칙만을 추출해 모바일 환경에 적용한다. 이 방법을 실제 uBlock Origin에 적용했을 때, 데스크톱에서는 평균 차단 처리 시간이 62.5 % 단축되었으며, 차단 커버리지는 99 % 이상 유지되었다. 모바일 기기에서는 메모리 사용량이 40 % 이상 감소하고 배터리 소모가 현저히 낮아졌다는 실험 결과가 보고되었다.
이러한 분석은 현재 광고 차단 생태계가 ‘규칙 폭발’이라는 구조적 비효율에 빠져 있음을 명확히 보여주며, 기여자 관리, 규칙 수명 주기 관리, 그리고 동적 회피 대응 전략이 향후 필터 리스트 설계에 필수적인 요소임을 강조한다.
댓글 및 학술 토론
Loading comments...
의견 남기기