중국 검색엔진 검열 메커니즘 분석
초록
본 논문은 2010‑2011년 기간 동안 45 000여 개 키워드에 대해 Baidu, Google(중국·글로벌), Yahoo!·Bing 등 4개 주요 검색엔진을 자동 크롤링하여 검열 현황을 정량화한다. 포르노, 정치·인물, 민감 단어 등에 대한 결과 수 차이, “블랙리스트”와 “화이트리스트” 현상, 그리고 검열 정책의 시계열 변화를 밝혀낸다.
상세 분석
이 연구는 중국 내 검색엔진이 어떻게 국가 검열 정책을 구현하는지를 실증적으로 파악하고자 했다. 먼저 일반 검색어(66 516개 중 44 102개)와 기존 연구에서 제시된 민감어(133개), 정부·군 지도자 이름(1 126개), 그리고 연구 진행 중 새롭게 추가된 시사어(85개)를 합쳐 총 45 411개의 고유 키워드를 구성하였다. 크롤러는 wget 기반으로 사용자‑에이전트를 Firefox로 위장하고, 쿠키와 세션을 관리하며 각 검색엔진에 질의를 전송하고 반환된 HTML을 저장한다. 질의는 인용부호 유무 두 가지 형태로 수행돼, 중국어 특성상 형태소 분석이 어려운 상황에서도 정확한 문자열 매칭을 검증한다.
검색 결과는 “hits” 수치와 실제 반환된 페이지를 비교함으로써 검열 여부를 판단했다. 포르노 관련 키워드는 거의 전면 차단되었으며, 일부 일반 단어가 포함하는 동일한 문자 조합 때문에 연쇄 차단이 발생했다. 정치·사회 인물(예: 반체제 활동가, 파룬공 등)과 고위 관료·군 지도자 이름도 전체 혹은 부분적으로 결과가 억제되었으며, 특히 “블랙리스트”에 오른 키워드에 대해서는 정부 소유 사이트만이 유일한 검색 결과로 나타났다. 이는 검색엔진 자체의 자체 검열(self‑censorship)과 방화벽(GFW)의 키워드 필터링이 복합적으로 작동함을 시사한다.
시간에 따른 변화를 살펴보면, 특정 키워드에 대한 차단 강도가 주기적으로 완화·강화되는 패턴이 관찰되었다. 이는 정책 변경이나 검열 시스템 업데이트에 따른 동적 조정으로 해석될 수 있다. Baidu와 Google은 검열 강도와 방식에서 차이를 보였으며, Yahoo!와 Bing은 상대적으로 제한적인 차단을 보였지만, 모두 일정 수준의 “화이트리스트”만을 제공하는 경향을 보였다.
이와 같은 결과는 검색엔진이 단순히 외부 방화벽에 의존하는 것이 아니라, 자체적인 필터링 로직과 키워드 매핑 테이블을 유지함으로써 검열을 수행한다는 중요한 통찰을 제공한다. 또한, 키워드 변형(동형문자 교체)과 인용부호 사용이 검열 회피에 어느 정도 효과가 있음을 실험적으로 확인하였다.
댓글 및 학술 토론
Loading comments...
의견 남기기