칼 피어슨의 실수와 그가 남긴 통계학 혁신

스티글러는 피어슨이 19세기 말에 만든 두 가지 주요 오류—피어슨‑필론의 “가능오차” 이론과 카이제곱 검정의 자유도 해석—를 재조명한다. 이 오류들은 당시에는 잘못된 것으로 평가되었지만, 후에 피셔가 이를 바로잡으면서 현대 수리통계학의 핵심 개념이 정립되는 계기가 되었다.

저자: ** Stephen M. Stigler (Ernest DeWitt Burton Distinguished Service Professor, Department of Statistics, University of Chicago) **

스티글러(2008)는 “칼 피어슨의 이론적 오류와 그것이 촉발한 진보”라는 제목으로, 피어슨이 19세기 말에 제시한 두 가지 주요 오류를 재조명하고, 이 오류들이 어떻게 현대 통계학의 토대를 마련했는지를 논한다. 첫 번째 오류는 1898년 피어슨과 그의 제자 필론이 발표한 “가능오차(probable error) of frequency constants” 논문에 있다. 이 논문은 다변량 측정값의 “주파수 표면”을 정의하고, 그 표면에 대한 로그우도비를 테일러 전개를 통해 다항식으로 전개한 뒤, 합을 적분으로 대체함으로써 오류의 확률분포를 근사하려는 시도였다. 그러나 피어슨은 추정값 자체를 파라미터처럼 취급했고, 합을 적분으로 바꾸는 과정에서 실제 모수에 대한 기대값이 아니라 추정값에 대한 기대값을 사용했다. 결과적으로 그들이 도출한 확률밀도식은 실제 오류분포와 일치하지 않았으며, 특히 비정규분포 상황에서 완전히 틀렸다. 스티글러는 이 오류가 피어슨‑필론 논문의 평판을 저하시켰지만, 동시에 그들의 접근법이 오늘날의 로그우도비를 이용한 다변량 정규근사와 매우 흡사함을 지적한다. 이는 피어슨이 당시 “추정값을 진짜 값처럼 다루는” 개념적 한계에 머물렀지만, 그 시도 자체가 후대에 점근적 방법론을 고안하는 데 영감을 주었다는 점을 강조한다. 두 번째 오류는 피어슨이 1900년에 제시한 카이제곱 검정에서 자유도의 정의를 잘못 해석한 것이다. 피어슨은 관측값과 기대값 사이의 차이를 제곱합으로 계산하면서, 제약조건(예: 모수의 합이 일정함) 수를 정확히 반영하지 않아 자유도를 과대평가하였다. 이로 인해 검정 통계량의 분포가 실제보다 넓게 잡히고, 유의수준이 왜곡되는 문제가 발생했다. 라우드와 피셔는 이 문제를 지적하고, 자유도를 “제약조건의 수”로 정의함으로써 카이제곱 검정의 이론적 기반을 재정립했다. 피셔는 또한 최대우도법과 충분통계량 개념을 도입하여, 피어슨의 오류를 체계적으로 교정하고 보다 일반적인 검정 절차를 제시했다. 스티글러는 이 두 오류가 단순히 피어슨의 실수에 머무르지 않고, 오히려 통계학의 중요한 전환점을 제공했다고 주장한다. 피어슨의 오류를 바로잡는 과정에서 피셔가 도입한 최대우도추정, 점근적 정규성, 자유도 조정 등은 오늘날 통계학의 핵심 이론이 되었다. 또한 피어슨이 기계식 계산과 대규모 표를 활용해 통계 실무에 기여한 점도 강조하면서, 그의 연구가 현대 통계학의 실용적·이론적 토대를 동시에 제공했음을 인정한다. 결론적으로, 피어슨의 두 주요 오류는 초기 통계학이 겪었던 개념적 한계를 드러내며, 그 한계를 극복하려는 후속 연구자들의 노력—특히 피셔의 혁신—이 현대 수리통계학을 탄생시킨 촉매제 역할을 했다는 것이 스티글러의 핵심 주장이다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기