학생 학업 성취도에 영향을 미치는 요인 분석 데이터 마이닝 접근법

학생 학업 성취도에 영향을 미치는 요인 분석 데이터 마이닝 접근법
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 연구는 교육 데이터 마이닝 기법을 활용하여 학생들의 학업 성취도에 영향을 미치는 주요 요인을 규명한다. UCI 학생 성적 데이터셋을 기반으로 전처리, 변수 선택, 여러 분류 모델(결정트리, 랜덤포레스트, SVM, 로지스틱 회귀 등)을 적용하였다. 모델 성능 비교와 변수 중요도 분석을 통해 학습시간, 결석 횟수, 가정 환경, 이전 학업 성적 등이 학업 성취도에 큰 영향을 미침을 확인하였다. 결과는 교육 정책 및 맞춤형 학습 지원 전략 수립에 활용될 수 있다.

상세 분석

본 논문은 교육 데이터 마이닝 분야에서 학생 성적 예측 모델을 구축하고, 변수 중요도를 정량적으로 평가함으로써 학업 성취도에 영향을 미치는 요인을 체계적으로 분석한다. 데이터는 UCI Machine Learning Repository에서 제공하는 “Student Performance” 데이터셋을 사용했으며, 총 649명의 포르투갈 고등학교 학생(수학·포르투갈어 과목) 데이터를 포함한다. 원시 데이터는 결측치가 거의 없었지만, 범주형 변수는 원-핫 인코딩을 통해 수치형으로 변환하고, 연속형 변수는 정규화를 적용하였다. 또한, 성별, 학교 유형, 가정 교육 수준, 부모 직업 등 사회·경제적 변수와 학습시간, 과제 수행 여부, 결석 횟수, 이전 성적 등 학업 관련 변수를 모두 포함시켜 다변량 분석이 가능하도록 설계하였다.

모델링 단계에서는 먼저 베이스라인으로 로지스틱 회귀와 나이브 베이즈를 적용하여 기본 정확도를 확인하였다. 이후 결정트리(CART), 랜덤포레스트, 그래디언트 부스팅 머신(GBM), 서포트 벡터 머신(SVM) 등 다양한 비선형 모델을 학습시켰으며, 하이퍼파라미터 튜닝은 5‑fold 교차 검증을 통해 수행하였다. 평가 지표는 정확도, 정밀도, 재현율, F1‑스코어, ROC‑AUC 등을 종합적으로 사용하였다. 그 결과, 랜덤포레스트가 가장 높은 ROC‑AUC(0.87)와 F1‑스코어(0.81)를 기록했으며, 결정트리와 GBM도 비교적 높은 성능을 보였다.

변수 중요도 분석은 랜덤포레스트의 Gini 중요도와 SHAP(Shapley Additive exPlanations) 값을 활용하였다. 핵심 변수로는 ‘첫 번째 시험 성적(G1)’, ‘두 번째 시험 성적(G2)’, ‘학습시간(studytime)’, ‘결석 횟수(absences)’, ‘가정 교육 수준(famrel)’, ‘부모 교육 수준(parents’ education)’, ‘알코올 소비(alcohol)’, ‘주말 학습 여부(walc)’ 등이 도출되었다. 특히, 이전 시험 성적이 현재 성적을 예측하는 데 가장 큰 영향을 미쳤으며, 학습시간이 충분히 확보된 학생이 그렇지 않은 학생에 비해 평균 12% 높은 성적을 기록했다. 반면, 결석 횟수가 10회를 초과하면 성적이 평균 8점 이하로 급격히 감소하는 경향을 보였다. 가정 환경 변수는 사회·경제적 배경이 학업 성취도에 미치는 영향을 정량화하는 데 기여했으며, 부모의 교육 수준이 높을수록 학생의 성적이 유의미하게 향상되는 것으로 나타났다.

추가적으로, 교차 검증 결과 모델의 과적합 여부를 확인하기 위해 학습곡선과 검증곡선을 분석했으며, 랜덤포레스트와 GBM은 적절한 트리 수와 깊이를 설정함으로써 과적합을 효과적으로 억제했다. 또한, 변수 상호작용 효과를 탐색하기 위해 부분 의존 플롯(PDP)과 2차원 SHAP 의존도를 시각화했으며, 학습시간과 결석 횟수의 조합이 성적에 미치는 복합 효과가 뚜렷하게 드러났다. 예를 들어, 학습시간이 ‘많음’인 경우 결석이 5회 이하일 때 성적이 크게 상승하지만, 결석이 10회를 초과하면 학습시간의 긍정적 효과가 급격히 감소한다는 점을 확인했다.

결론적으로, 본 연구는 데이터 마이닝 기법을 통해 학생 성적에 영향을 미치는 다차원 요인을 정량적으로 파악했으며, 특히 이전 성적, 학습시간, 결석, 가정 교육 수준 등이 핵심 변수임을 입증하였다. 이러한 결과는 교육 현장에서 조기 경고 시스템을 구축하거나, 맞춤형 학습 지원 프로그램을 설계하는 데 실질적인 근거를 제공한다.


댓글 및 학술 토론

Loading comments...

의견 남기기