수학 전공 핵심 과목 통계 분석
본 논문은 UCLA 수학과 학생들의 성적 데이터를 활용해 ‘핵심 과목’이 갖춰야 할 두 가지 통계적 특성(전체 수학 GPA와의 높은 상관성, GPA에 미치는 큰 영향력)을 검증한다. Spearman 순위 상관계수와 결정계수(R²)를 결합한 ρ_H 지표와 라쏘(LASSO) 회귀를 이용해 과목별 중요도를 평가하고, 결과를 기존 핵심 과목(선형대수, 실해석)과 비교한다.
저자: Ritvik Kharkar, Jessica Tran, Charles Z. Marshak
이 논문은 대학 수학 교육에서 ‘핵심 과목(core course)’이라는 개념을 통계적으로 검증하고자 하는 시도이다. 전통적으로 핵심 과목은 교과 내용이 기초적이며 전공 이수에 필수적인 과목으로 정의되지만, 실제로 이러한 과목이 학생들의 전체 수학 GPA에 얼마나 큰 영향을 미치는지는 명확히 밝혀지지 않았다. 저자들은 두 가지 통계적 속성을 핵심 과목이 가져야 할 조건으로 설정한다. 첫 번째는 개별 과목 성적과 전체 수학 GPA 사이의 높은 상관성, 두 번째는 해당 과목 성적이 전체 GPA에 미치는 큰 영향력이다.
연구는 2000년부터 2015년까지 UCLA 수학과에 재학한 학생들의 성적 데이터를 활용한다. 분석 대상은 최소 5개의 수학 과목을 이수하고, 최소 하나의 상위 과목을 수강한 학생들로 제한했으며, 전공별(수학·경제, 순수수학, 응용수학)로 구분하였다. 전학년(신입생)만을 대상으로 하여 편입생을 배제했는데, 이는 편입생이 다른 교육 배경을 가지고 있어 비교 대상이 되지 않을 것이라는 가정에 근거한다.
첫 번째 분석 단계에서는 두 가지 상관 지표를 사용한다. Spearman 순위 상관계수 ρₛ는 학생들을 전체 GPA와 특정 과목 성적으로 각각 순위 매긴 뒤, 순위 차이의 제곱합을 정규화해 계산한다. 결정계수 R²는 선형 회귀 관점에서 과목 성적과 전체 GPA 사이의 변동량을 설명하는 비율을 나타낸다. 두 지표를 결합해 ρ_H = √(ρₛ² + R²²)라는 새로운 메트릭을 정의하고, 이 값이 클수록 해당 과목이 GPA와 강하게 연관된다고 판단한다. 표 1·2에 제시된 결과에 따르면, 선형대수, 복소해석, 미분방정식 등 여러 과목이 높은 ρ_H 값을 보였으며, 특히 선형대수는 가장 높은 값을 기록했다.
두 번째 단계에서는 라쏘(LASSO) 회귀를 이용해 과목별 GPA에 대한 기여도를 추정한다. 전체 과목을 설명 변수로, 학생별 전체 GPA를 종속 변수로 두고 L1 패널티를 적용해 계수를 희소화한다. α=0.1을 선택했으며, 이 설정에서 약 80%의 과목 계수가 0이 되었다고 보고한다. 라쏘 결과(표 3)에서는 복소해석, 차분기하, 수치해석(2부) 등이 비제로 계수를 받아 핵심 과목 후보로 떠올랐다. 반면 실해석은 라쏘에서 낮은 계수를 받아 부서가 정의한 핵심 과목과 통계적 결과 사이에 차이가 있음을 시사한다.
라쏘로 선정된 과목을 다시 리지(Ridge) 회귀에 투입해 정확한 가중치를 추정하고, 이를 기반으로 전체 GPA를 예측하는 모델을 구축한다. 리지는 L2 패널티를 통해 다중공선성을 완화하고, 라쏘보다 편향이 적은 추정치를 제공한다. 저자는 선형대수와 실해석을 고정 변수로 두고, 라쏘에서 상위 3개 과목을 각각 세 번째 변수로 사용해 네 번의 리지 모델을 실행한다. 결과적으로 라쏘에서 높은 계수를 가진 과목을 포함했을 때 예측 정확도가 높아졌으며, 라쏘에서 비핵심으로 판단된 과목을 넣으면 정확도가 감소하는 현상이 관찰되었다.
논문의 주요 결론은 다음과 같다. (1) ρ_H 메트릭과 라쏘 회귀를 결합한 접근법은 기존 교과목 선정 기준을 통계적으로 검증할 수 있는 유용한 도구이다. (2) 선형대수는 두 방법 모두에서 높은 중요도를 보이며, 부서가 정의한 핵심 과목으로서 타당성을 갖는다. (3) 복소해석은 라쏘와 ρ_H 모두에서 높은 점수를 받아, 현재 핵심 과목 목록에 포함시키는 것이 고려될 여지가 있다. (4) 실해석은 부서가 핵심 과목으로 지정했지만, 통계적 분석에서는 상대적으로 낮은 영향력을 보였으며, 이는 교과목 내용의 중요성과 성적 상관성 간의 차이를 반영한다.
연구의 한계점도 명시한다. ρ_H 정의에서 제곱근이 아닌 단순 합을 사용한 것으로 보이는 오류가 있어 값이 1을 초과하는 경우가 발생한다. 라쏘와 리지 결합 방식은 두 모델의 편향 차이를 충분히 고려하지 않았으며, α값 선택에 대한 민감도 분석이 부족하다. 또한, 전학년만을 대상으로 한 표본 제한과 편입생 배제는 결과의 일반화 가능성을 저해한다. 마지막으로, 상관관계와 인과관계를 구분하지 못하고 있어, 과목 성적이 GPA에 직접적인 원인인지 혹은 학생 능력에 의해 동시에 높아지는 현상인지는 추가 연구가 필요하다.
향후 연구에서는 (1) ρ_H 메트릭을 수학적으로 정규화하고, 부트스트랩을 통한 신뢰구간 추정, (2) 라쏘와 리지 외에 Elastic Net, Bayesian 변수 선택 등 다양한 모델을 비교, (3) 전공별, 학년별, 편입생 포함 등 다양한 표본을 확대하여 결과의 견고성을 검증, (4) 과목 간 내용적 연계성을 네트워크 분석으로 모델링해 교육과정 설계에 직접적인 인사이트를 제공하는 방안을 제시한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기