대학 신입생 이탈 예측: 머신러닝 기반 조기 경고 시스템
본 연구는 워싱턴 대학교 32,500명 이상의 학생 데이터를 활용해 첫 학기 성적·인구통계 정보를 기반으로 중도 탈락 여부를 예측한다. 로지스틱 회귀, k‑NN, 랜덤 포레스트 등 세 모델의 AUC가 0.66~0.73 수준으로, 특히 수학·영어·화학·심리학 과목의 GPA가 강력한 예측 변수임을 확인했다. 또한 탈락 시점을 추정하는 회귀 모델은 평균 5분기 오차를 보였다.
저자: Lovenoor Aulck, Nishant Velagapudi, Joshua Blumenstock
이 논문은 미국 내 4년제 공립대학인 워싱턴 대학교의 레지스트라 데이터를 이용해 신입생의 중도 탈락을 예측하고, 이를 통해 조기 개입 가능성을 탐색한다. 연구 대상은 1998년부터 2006년 사이에 입학한 69,116명의 학부생이며, 이 중 5명의 결측 데이터를 제외하고 32,538명을 비완료(NC)와 완주 학생으로 1:1 균형을 맞춘다. 데이터는 인구통계(성별, 인종, 거주 상태 등), SAT/ACT 점수, 첫 학기 수강 과목·학점·성적, 전공 선언 정보 등을 포함한다. 결측 SAT/ACT는 선형 회귀 보간으로 대체했으며, 전공별·학과별 수강 여부, 학점 수, 과목 수, GPA를 각각 이진, 카운트, 평균 형태로 변환해 총 784개의 파생 피처를 생성하였다. 또한 STEM 분야의 기초 과목(물리, 화학, 생물, 수학) 수강 여부와 remedial 수업 이수 여부, 첫 학기 관심 그룹 참여 여부도 피처에 포함시켰다.
예측 모델은 정규화 로지스틱 회귀, k‑Nearest Neighbors, 랜덤 포레스트 세 가지를 사용했으며, 70% 데이터를 10‑fold 교차 검증으로 하이퍼파라미터를 튜닝하고, 남은 30%를 독립 테스트 셋으로 설정했다. ROC 곡선과 AUC를 주요 성능 지표로 삼았으며, 로지스틱 회귀가 AUC 0.729, 정확도 66.59%로 가장 높은 성능을 보였다. k‑NN과 랜덤 포레스트는 각각 AUC 0.660, 0.694, 정확도 64.60%와 62.24%를 기록했다. 단일 피처별 예측력을 평가한 결과, 수학 GPA(0.571), 영어 GPA(0.567), 첫 학기 등록 분기(0.549), 화학 GPA(0.549) 등이 상대적으로 높은 예측력을 보였지만, 어느 하나도 54% 이상의 정확도를 넘지 못해 다변량 모델의 필요성을 강조한다.
비완료 학생이 실제로 언제 탈락하는지를 예측하기 위해 정규화 선형 회귀를 적용했으며, 전체 비완료 학생의 평균 탈락 시점은 7.35학기(표준편차 5.65)였다. 모델의 RMSE는 5.03학기였으며, 가장 오차가 큰 5%·10% 사례를 제외하면 각각 4.14학기, 3.74학기로 개선되었다. 이는 첫 학기 데이터만으로도 대략적인 탈락 시점을 추정할 수 있음을 시사한다.
연구는 또한 시간적 요인(출생 연도, 입학 연도, 입학 분기)이 이탈에 영향을 미친다는 점을 발견했다. 1998년 입학 cohort의 이탈률은 27.6%였으나 2006년 입학 cohort은 20.2%로 감소 추세를 보였다. 이는 정책 변화나 교육 환경 개선이 효과를 나타낼 가능성을 암시한다.
한계점으로는 재정 상황, 학생의 심리·사회적 요인 등 중요한 변수들이 데이터에 포함되지 않았으며, 현재는 1학기 데이터에만 국한된 점을 들 수 있다. 향후 연구에서는 전체 학기 데이터를 활용한 장기 추적, 클래스 불균형 처리, 딥러닝 기반 모델(예: CNN, RNN) 적용, 그리고 대학 행정과 연계한 실시간 조기 경고 시스템 구축을 목표로 한다. 최종적으로는 예측 모델을 정책 설계에 활용해 이탈 위험이 높은 학생에게 맞춤형 학습 지원, 재정 보조, 멘토링 등을 제공함으로써 학생 유지율을 높이고 교육 비용을 절감하는 것이 목표이다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기