학생 이탈 예측과 병목 과목 탐지를 위한 비지도 군집 분석
초록
본 논문은 캘리포니아 주립대학 CSUN의 다섯 전공(경영, 마케팅, 비즈니스법, 토목, 전기공학) 학생 데이터를 활용해 K‑means 군집화와 Calinski‑Harabasz 지수를 이용해 최적 클러스터 수를 결정하고, 두 개의 클러스터가 졸업 여부를 강력히 예측함을 확인하였다. 특히 전공 초기 3개 과목의 성적이 클러스터 구분에 큰 영향을 미쳐, 이 과목들을 ‘병목 과목’으로 식별하였다. 군집 기반 분류기의 성능은 로지스틱 회귀와 비교해 경쟁력 있음을 보여, 조기 경고 시스템에 활용 가능함을 제시한다.
상세 분석
이 연구는 교육 데이터 마이닝 분야에서 비지도 학습을 활용한 실용적 사례를 제공한다. 데이터는 2004‑2014년 사이에 CSUN에 재학한 9,088명의 학부생 기록으로, 전공별 필수 과목의 성적만을 포함한다. 성적은 0‑4.0 GPA 스케일로 정규화했으며, 필수 과목 미이수자는 ‘F’ 점수로 처리해 졸업 불가능성을 반영하였다. 전처리 단계에서 전공별로 데이터셋을 분리하고, 학기 수·전공 학점·전이 학점 등 메타 정보를 추가하였다.
핵심 알고리즘은 K‑means 군집화이며, 클러스터 수 선택을 위해 5‑fold 교차 검증된 Calinski‑Harabasz (CH) 지수를 사용하였다. 모든 전공에서 CH 지수가 최대가 되는 클러스터 수는 2개였으며, 이는 ‘졸업 가능’과 ‘졸업 불가능’ 두 그룹으로 자연스럽게 구분되는 구조를 의미한다. 군집화 후, 각 클러스터에 속한 학생들의 평균 성적 분포를 분석한 결과, 특정 하위 과목(특히 전공 첫 3개 과목)의 평균 점수가 두 클러스터 사이에서 현저히 차이 나는 것을 확인했다. 이러한 과목을 ‘병목 과목’이라 정의하고, 조기 경고 시스템의 핵심 피처로 제안하였다.
분류 성능 평가는 ROC 곡선, 정확도, 정밀도, 재현율, F1 점수를 사용했다. 전체 과목(≈113개) 기반 로지스틱 회귀 모델과 비교했을 때, 군집 라벨만을 이용한 간단한 분류기도 비슷한 수준의 AUC와 F1 점수를 기록했다. 특히 첫 3개 과목만을 사용했을 때도 두 모델 모두 높은 예측력을 유지했으며, 이는 초기 학업 성과가 졸업 결과를 강력히 예측한다는 실증적 증거가 된다.
한편, 연구는 몇 가지 한계점을 가지고 있다. 첫째, 성적 외의 학생 특성(인구통계, 재정 지원, SAT 점수 등)을 제외했기 때문에 모델의 일반화 가능성이 제한된다. 둘째, K‑means는 구형 클러스터 가정을 갖고 있어 복잡한 비선형 관계를 포착하기 어려울 수 있다. 셋째, 클러스터 수를 2개로 고정함으로써 다중 유형의 이탈 패턴(예: 전공 전환, 중도 탈락 등)을 세분화하지 못했다. 향후 연구에서는 계층적 군집화, DBSCAN 등 밀도 기반 방법이나, 협업 필터링을 결합해 전공 전환 예측까지 확장할 여지가 있다.
전반적으로, 이 논문은 최소한의 데이터(초기 몇 과목 성적)만으로도 졸업 여부를 효과적으로 예측하고, 교육 정책 입안자에게 병목 과목을 식별·개선할 근거를 제공한다는 점에서 실용적 가치를 지닌다.
댓글 및 학술 토론
Loading comments...
의견 남기기