대학원 입학시험 타당도 논란 과대평가와 실용성 검증
초록
ETS가 발표한 GRE와 대학원 누적 GPA 간의 상관계수는 기존 연구보다 두 배 가까이 높은데, 이는 통계적 편향과 제한된 범위 보정 가정의 오류에서 비롯된다. 저자는 상관계수 대신 오분류율을 이용한 실용적 효용 분석을 제시하며, GRE가 소수자와 저소득층에게 불리하고 무작위 선발보다 오류가 많을 수 있음을 보여준다.
상세 분석
이 논문은 세 가지 핵심 문제를 체계적으로 파헤친다. 첫째, ETS가 사용한 “공통 요인 회귀” 방식은 다중상관계수를 과대추정하는 경향이 있다. 특히 모집단 상관이 0에 가깝거나 매우 낮은 경우, 표본 크기와 변수 선택에 따라 인위적으로 0.300.35 수준의 유효성을 보고하게 된다. 저자는 시뮬레이션을 통해 동일한 모집단에서 무작위 표본을 1,000번 추출했을 때 평균 다중상관이 실제값보다 0.12 정도 높게 나타나는 것을 입증한다. 둘째, 제한된 범위(Restriction of Range)에 대한 “보정”은 전제 조건이 충족되지 않을 때 오히려 왜곡을 심화한다. 보정식은 모집단과 표본의 분산비, 그리고 독립변수와 종속변수 간의 선형 관계를 가정한다. 그러나 GRE 점수는 이미 선발 과정에서 상위 20%만이 지원하는 경우가 많아, 분산이 크게 축소되고 비선형 효과가 나타난다. 이러한 상황에서 보정값을 적용하면 유효도가 인위적으로 상승한다. 셋째, 전통적 테스트 이론이 강조하는 상관계수와 분산만으로는 실제 의사결정의 효용을 판단하기 부족하다. 저자는 “베이스 레이트(base‑rate)”와 “입학 쿼터(admission quota)”를 포함한 의사결정 모델을 제시한다. 여기서는 각 지원자를 ‘합격’·‘불합격’으로 분류하고, 실제 성취도(예: GPA ≥ 3.0)와 비교해 오분류율(민감도·특이도)을 계산한다. 결과는 GRE 기반 선발이 무작위 추첨보다 전체 오분류율이 23% 높으며, 특히 소수자 그룹에서는 차이가 5~7%에 달한다는 것이다. 이러한 분석은 GRE가 단순히 “예측력”이 높다고 주장하는 것보다, 실제 교육적·사회적 비용을 고려했을 때 오히려 비효율적일 수 있음을 시사한다.
댓글 및 학술 토론
Loading comments...
의견 남기기