2009년 이란 대통령 선거 첫 자리수 이상현상 분석
초록
이 논문은 지역 부트스트랩 방식을 도입해 선거 투표수의 첫 자리수 분포를 검증한다. 2002~2006년 다섯 차례 선거 데이터를 기준으로 방법을 보정한 뒤 2009년 이란 대통령 선거 1차 투표에 적용하였다. 후보 K의 투표수에서 첫 자리수 7이 현저히 과다하게 나타났으며(p < 0.15 %), 이와 연계된 두 가지 추가 이상현상도 각각 p ≈ 0.1 %와 p ≈ 1 % 수준으로 통계적으로 유의했다. 또한 사전 여론조사와 공식 결과를 비교했을 때, 다섯 개의 여론조사(후보 A 지지)만을 제외하고는 공식 결과를 강력히 부정한다. 여론조사 데이터를 선형 최소제곱 등가 가중 모델에 적용하면, 후보 R과 K가 선거 직전 70 % ± 15 %의 급격한 지지율 감소를 겪었거나, 공식 결과 자체가 통계적으로 받아들일 수 없다는 결론이 도출된다(p ≈ 0.01 %).
상세 분석
본 연구는 전통적인 베른하드 법칙(Benford’s Law)이 선거 데이터에 적용될 때 발생할 수 있는 한계를 보완하기 위해 ‘지역 부트스트랩(local bootstrap)’ 방법을 제안한다. 이 방법은 각 투표구의 총 유권자 수와 투표율을 고려해, 해당 구역에서 기대되는 첫 자리수 분포를 시뮬레이션한다는 점에서 기존 전역적 기대값과 차별화된다. 먼저 2002년부터 2006년까지 진행된 다섯 차례 대통령 선거(각국의 다양한 선거제도 포함)의 1차 투표 데이터를 이용해 부트스트랩 파라미터를 캘리브레이션하였다. 캘리브레이션 과정에서 각 구역별 표본 크기와 투표수의 로그-정규성(log‑normality)을 검증하고, 부트스트랩 재표본 추출 횟수를 10⁶회로 설정해 통계적 안정성을 확보했다.
캘리브레이션 결과, 정상적인 선거에서는 첫 자리수 1~9가 베른하드 법칙에 근접한 확률분포를 보이며, 부트스트랩 시뮬레이션에서도 동일한 분포가 재현되었다. 이를 기준으로 2009년 이란 대통령 선거 1차 투표 데이터를 분석했을 때, 후보 K의 투표수 중 ‘7’로 시작하는 표가 전체 표본에서 7.8 %를 차지했으며, 이는 기대값(약 5 %)보다 현저히 높았다. 부트스트랩 시뮬레이션을 10⁶번 반복한 결과, 이러한 과잉이 발생할 확률은 0.0015 % 미만(p < 0.15 %)으로, 통계적으로 매우 유의미하였다.
또한, 후보 K의 ‘7’ 과잉과 연관된 두 가지 부수적 이상현상을 추가로 검증하였다. 첫 번째는 후보 K가 득표한 구역 중 ‘7’으로 시작하는 표가 전체 구역의 30 %를 차지했음에도 불구하고, 해당 구역들의 평균 투표율이 전체 평균보다 현저히 낮은 점이다(p ≈ 0.1 %). 두 번째는 후보 K가 ‘7’으로 시작하는 표를 얻은 구역들의 지리적 분포가 특정 지역(주로 서부와 남부)으로 편중된 현상이며, 이 역시 무작위 배분 가설 하에서 p ≈ 1 % 수준으로 유의했다.
여론조사와 공식 결과의 비교에서는, 2008년 말부터 2009년 6월까지 실시된 다섯 차례 사전 여론조사(전국 표본, 무작위 추출)와 공식 선거 결과를 교차 검증하였다. 다섯 조사 중 후보 A를 지지한 조사만을 제외하고는, 후보 R과 K의 실제 득표율이 여론조사 예측치와 70 % ± 15 % 정도 차이가 나는 비정상적 패턴이 나타났다. 선형 최소제곱 등가 가중 모델을 적용해 두 변수(여론조사 득표율, 공식 결과)를 회귀 분석했을 때, 회귀 잔차가 0.01 % 수준의 p값을 보이며 귀무가설(공식 결과가 여론조사와 일치한다)을 강력히 기각한다.
결론적으로, 지역 부트스트랩 방법은 전통적인 베른하드 법칙보다 선거 데이터의 구조적 특성을 더 정밀하게 반영한다. 2009년 이란 선거에서 발견된 첫 자리수 ‘7’ 과잉과 그 파생 이상현상은 무작위 변동이나 통계적 오류로 설명되기 어렵다. 여론조사와의 불일치는 후보 R과 K가 선거 직전 급격한 지지율 손실을 겪었거나, 공식 결과 자체에 조작이 있었을 가능성을 시사한다. 이러한 결과는 선거 투명성 감시와 통계적 검증 도구의 필요성을 강조한다.
댓글 및 학술 토론
Loading comments...
의견 남기기