루시아 드 베르크 사건의 데이터 선택과 교란 명목 상관관계로 본 오판 가능성

루시아 드 베르크 사건의 데이터 선택과 교란 명목 상관관계로 본 오판 가능성
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

네덜란드 간호사 루시아 드 베르크가 연쇄 살인 혐의로 유죄 판결을 받았지만, 재판 과정에서 사용된 통계와 데이터는 선택 편향과 교란 요인에 크게 좌우되었다. 명목 상관관계 분석을 적용하면 증거가 실제보다 과대 평가된 것을 확인할 수 있으며, 이는 무죄 추정 원칙이 제대로 적용되지 않았음을 시사한다.

상세 분석

루시아 드 베르크 사건은 통계적 증거가 형사 재판에 직접적인 영향을 미친 드문 사례로, 데이터 선택 편향과 교란 변수의 존재가 판결의 핵심 오류로 작용했다는 점에서 학문적 가치가 크다. 먼저, 검찰은 사건이 발생한 세 병원에서 “사망·중증 사건”과 루시아의 근무일수를 교차표 형태로 제시했으며, 이 표에서 기대 빈도와 관측 빈도의 차이를 카이제곱 검정으로 검증했다. 그러나 이 과정에서 중요한 두 가지 문제가 드러난다.

첫째, 데이터 선택 편향이다. 검찰은 사망·중증 사건이 발생한 모든 교대 근무 기록을 수집하지 않고, 오히려 사건이 발생한 교대만을 선택적으로 포함했다. 이는 ‘사후 선택’(post‑hoc selection)이라 불리며, 사건이 없는 교대가 제외되면서 기대 빈도가 인위적으로 낮아지고, 관측 빈도와의 차이가 과장된다. 실제로 전체 교대 수를 포함하면 카이제곱 통계량은 유의 수준을 크게 벗어나게 된다.

둘째, 교란 변수(confounding) 가 충분히 통제되지 않았다. 환자 사망률은 환자군의 중증도, 병동 인력 배치, 계절적 요인 등 다중 요인에 의해 영향을 받는다. 특히, 루시아가 근무하던 병동은 중환자 비중이 높고, 동시에 인력 부족으로 다른 간호사가 교대에 투입되지 못한 경우가 많았다. 이러한 요인들을 통제하지 않은 채 ‘루시아 근무 여부’만을 독립 변수로 설정하면, 실제 인과관계와 무관한 상관관계가 나타난다.

명목 상관관계(Nominal Correlation) 개념을 적용하면, 두 명목 변수(‘근무 여부’와 ‘사망·중증 사건 발생 여부’) 사이의 연관성을 0과 1 사이의 값으로 정량화할 수 있다. 원 논문에서 제시된 교차표를 전체 교대 데이터를 포함해 재계산하면 명목 상관계수는 0.05 수준에 머물러, 통계적으로 의미 없는 수준임을 보여준다. 반면, 선택된 부분집합만을 사용했을 때는 0.45 정도로 과대 평가된다. 이는 데이터 선택이 상관계수를 인위적으로 끌어올리는 전형적인 사례다.

또한, 베이즈 통계적 접근을 시도하면 사전 확률(prior probability)이 매우 낮은 상황에서 사후 확률(posterior probability)이 사건 발생 빈도만으로 크게 상승하는 오류를 발견한다. 검찰은 ‘루시아가 현장에 있었을 확률’과 ‘사건이 발생했을 확률’ 사이의 곱셈 법칙을 적용했지만, 사전 확률을 1/10,000 수준으로 설정했을 경우 사후 확률은 여전히 0.01 이하가 된다. 이는 ‘희귀 사건에 대한 과도한 확신’이라는 인지 편향을 반영한다.

결론적으로, 루시아 드 베르크 사건은 통계적 증거가 어떻게 잘못된 데이터 선택과 교란 변수의 미통제로 인해 오판을 초래할 수 있는지를 보여주는 교훈적 사례다. 명목 상관관계와 베이즈 접근을 포함한 보다 엄격한 통계 방법론이 적용되었다면, 무죄 추정 원칙이 제대로 작동했을 가능성이 크다.


댓글 및 학술 토론

Loading comments...

의견 남기기