러시아 선거 결과와 가우스 분포 논쟁, 통계적 오류와 진실
워싱턴 포스트가 제기한 “러시아 선거 결과가 가우스 분포를 위반한다”는 주장은 통계학적 근거가 부족하다. 독립성 가정이 깨진 경우 비가우시안 분포가 자연스럽게 나타날 수 있으며, 마르코프의 의존적 추출 모델을 통해 균등분포가 가능함을 보여준다. 따라서 선거 사기의 증거로 가우시안 여부를 들먹이는 것은 과학적으로 부적절하다.
저자: M. V. Simkin
이 논문은 워싱턴 포스트와 일부 블로거가 제기한 “러시아 선거 결과가 가우스 정규분포를 위반한다는” 주장에 대해 체계적인 반박을 제시한다. 먼저, 정규분포가 자연 현상이나 사회 현상에서 보편적으로 나타난다는 일반화가 잘못되었음을 지적한다. 정규분포는 독립적인 다수의 미시적 요인이 합쳐질 때 중심극한정리에 의해 나타나는 특수한 경우이며, 요인 간에 의존성이 존재하면 전혀 다른 분포가 나타날 수 있다.
이를 설명하기 위해 저자는 안드레이 마르코프가 제시한 의존적 추출 모델을 소개한다. 초기 상태에 흰색·검은색 공 각각 하나를 넣고, 매 추출 후 같은 색 공을 추가하는 과정을 반복하면, N번의 실험 후 흰색 공이 추출된 횟수는 0부터 N까지 모든 값이 동일한 확률을 가진 균등분포가 된다. 이 모델은 “많은 요인이 독립적이어야 정규분포가 나온다”는 전제의 반증 사례이며, 실제로는 의존성이 강한 시스템에서 균등분포나 다른 비정규분포가 자연스럽게 발생한다는 점을 보여준다.
저자는 이 모델을 선거 상황에 적용한다. 가상의 작은 도시에서 두 정당(흰색·검은색) 각각 한 명의 초기 지지자가 존재하고, 각 지지자는 새로운 유권자를 설득한다. 설득 성공 확률이 동일하다고 가정하면, 이미 지지자를 많이 가진 정당이 추가적인 지지자를 얻을 확률이 더 높아진다. 이는 마르코프 모델과 일대일 대응되며, 결과적으로 각 선거구의 득표율은 균등분포에 가까워질 수 있다.
물론 실제 선거는 이보다 훨씬 복잡하다. 지역 간 상호작용, 사회적 네트워크, 다당제 구조, 매체 영향 등 다양한 요인이 존재한다. 이러한 요인들은 독립성을 더욱 약화시키며, 따라서 득표율 분포는 정규분포가 아니라 비정규분포, 심지어는 다중 피크를 가진 복합적인 형태를 보일 가능성이 높다. 저자는 두 정당만을 가정한 단순 모델이 현실을 완벽히 반영하지는 않지만, “정규분포가 아니면 부정선거다”라는 논리가 과학적 근거가 없음을 충분히 증명한다.
또한 논문은 소득 분포와 같은 실제 사회 현상의 예시를 들어, 비정규분포가 흔히 나타나는 사례를 강조한다. 소득은 지수분포나 파레토 분포와 같은 장측면이 긴 형태를 띠며, 이는 정규분포와는 전혀 다른 특성을 가진다. 따라서 선거 결과가 정규분포를 따르지 않는다고 해서 자동으로 조작이 있다고 결론짓는 것은 통계학적 오류이다.
결론적으로, 저자는 가우스 정규분포를 기준으로 선거 사기를 판단하는 주장은 과학적 근거가 부족하고, 의존적 요인과 복합적 사회 구조를 고려하면 비정규분포가 자연스러운 현상임을 강조한다. 따라서 워싱턴 포스트와 블로거가 제기한 “가우스와 맞지 않는다”는 주장은 통계적, 수학적 관점에서 부적절하며, 선거 결과 자체를 신뢰할 근거를 약화시키지 않는다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기