학생 학업 성취도 예측을 위한 K 평균 군집 분석
초록
본 논문은 나이지리아 사립 대학의 학생 성적 데이터를 활용해 K‑means 군집 알고리즘과 결정론적 모델을 결합, 학업 성취도를 수준별로 구분하고 향후 교육 정책 수립에 활용할 수 있는 시스템을 제안한다.
상세 분석
본 연구는 고등교육 기관에서 학생들의 학업 진행 상황을 실시간으로 모니터링하고, 데이터 기반 의사결정을 지원하기 위한 분석 프레임워크를 설계하였다. 핵심 기술은 K‑means 군집화이며, 이는 비지도 학습 방법으로 학생들의 성적 패턴을 유사도에 따라 자동으로 그룹화한다. 논문에서는 먼저 원시 성적 데이터를 전처리 단계에서 결측값 보정, 정규화, 그리고 필요에 따라 차원 축소(예: 주성분 분석)를 수행하였다. 전처리된 데이터는 각 학생을 다차원 특성 벡터(예: 과목별 점수, 평균, 표준편차)로 변환하고, 이를 기반으로 K값을 결정하기 위해 엘보우 방법과 실루엣 점수를 병행 적용하였다. 최적 K값은 3~4개 수준으로 도출되었으며, 이는 ‘우수’, ‘보통’, ‘취약’ 등 학업 성취도 구간에 대응한다.
군집화 결과는 결정론적 모델(예: 규칙 기반 분류 혹은 선형 회귀)과 결합되어, 각 군집에 속한 학생들의 향후 학업 성취를 예측한다. 결정론적 모델은 군집 중심과 개별 학생의 편차를 입력 변수로 사용해, 학기 말 성적 혹은 졸업 가능성을 추정한다. 이때 모델의 정확도는 교차 검증을 통해 85% 이상으로 보고되었으며, 특히 ‘취약’ 군집 학생에 대한 조기 경고 시스템 구축에 유용함을 강조한다.
하지만 몇 가지 한계점도 존재한다. 첫째, K‑means는 구형 군집을 가정하므로 비선형 관계를 포착하기 어려우며, 데이터가 고차원일 경우 군집 경계가 흐려질 위험이 있다. 둘째, 연구에 사용된 데이터는 단일 사립 대학에 국한돼 있어 일반화 가능성이 제한된다. 셋째, 결정론적 모델의 파라미터 선택 과정이 상세히 기술되지 않아 재현성에 의문이 남는다. 향후 연구에서는 DBSCAN이나 Gaussian Mixture Model 등 비구형 군집 기법을 도입하고, 다기관 데이터를 확보해 모델의 외적 타당성을 검증할 필요가 있다. 또한, 군집 결과를 시각화하고 교사·학생에게 직관적으로 전달할 수 있는 대시보드 설계가 실용적 가치 향상에 기여할 것이다.
댓글 및 학술 토론
Loading comments...
의견 남기기