프로그래밍 과목 학생 성취 예측을 위한 모바일 연동 머신러닝 모델 개발
초록
본 연구는 295명의 대학생을 대상으로 설문조사 데이터를 수집하고, M5P 의사결정트리와 선형 회귀 분류기를 적용해 프로그래밍 과목 성적을 예측하는 모델을 구축하였다. 변수 기반 선형 회귀 모델이 MAE, RMSE, RAE, RRSE 등 네 가지 평가 지표에서 가장 낮은 오차를 보이며 최우수 모델로 선정되었다. 또한 학생·교수 태도, 불안감, 전력 공급 불안정, 시설·건강·출석 등 여섯 가지 숨은 요인이 성적에 큰 영향을 미치는 것으로 밝혀졌다. 개발된 모델은 Android 애플리케이션으로 구현돼 실시간 예측과 의사결정 지원이 가능하도록 설계되었다.
상세 분석
이 논문은 기존 학생 성취 모델링이 확률 기반 통계 방법에 의존해 왔다는 한계를 지적하고, 머신러닝 기법을 통한 정량적 예측의 필요성을 강조한다. 데이터 수집은 2012‑2016년 사이에 웹프로그래밍, C, JAVA 과목을 수강한 200·300레벨 학생 295명을 대상으로 설계된 설문지를 이용했으며, 변수와 요인 두 가지 형태의 데이터셋으로 전처리하였다. 전처리 과정에서는 정규화, 코딩, 결측치 처리 등이 수행되어 모델 학습에 적합한 형태로 변환되었다.
M5P 의사결정트리는 회귀 트리 학습에 특화된 알고리즘으로, 분할 기준을 평균 제곱오차(MSE) 기반의 정보이득으로 설정하고, 과적합 방지를 위해 오류 기반 가지치기를 적용한다. 반면 선형 회귀 분류기(LRC)는 독립 변수와 종속 변수 사이의 선형 관계를 가정하고, 최소제곱법을 통해 회귀 계수를 추정한다. 두 알고리즘 모두 WEKA 환경에서 구현되었으며, 모델 구축 시간과 테스트 시간도 비교 지표에 포함시켰다.
평가 지표는 MAE, RMSE, RAE, RRSE 네 가지를 사용했으며, 이는 절대 오차와 제곱 오차를 각각 상대적 형태로 변환한 값으로 모델의 정확도와 일반화 능력을 다각도로 검증한다. 결과적으로 변수 기반 LRC가 모든 지표에서 가장 낮은 값을 기록했으며, 이는 선형 관계가 존재하는 변수들(예: 학생·교수 태도, 출석률 등)이 모델링에 효과적임을 시사한다. 반면 요인 기반 MDT는 트리 구조가 복잡해지면서 오버피팅 위험이 증가하고, 일부 비선형 상호작용을 포착하지 못해 성능이 다소 낮았다.
숨은 요인 분석에서는 학생·교수의 태도, 학생의 두려움, 전력 공급 불안정, 대학 시설, 학생 건강, 출석률이 성적에 유의미한 영향을 미치는 것으로 도출되었다. 특히 ‘학생·교수 태도’와 ‘두려움’은 회귀 계수에서 가장 큰 절대값을 보였으며, 이는 정서적·심리적 요인이 프로그래밍 학습 성공에 핵심 변수임을 뒷받침한다.
모델 구현 단계에서는 Android Studio 1.0.1을 활용해 모바일 프론트엔드를 설계했으며, XML로 UI를 구성하고 Java 로 모델 로직을 구현했다. 사용자는 앱에 변수 값을 입력하면 실시간으로 예측 점수를 확인할 수 있고, 이를 기반으로 학습 전략을 수정하거나 교수가 개입할 수 있다. 모바일 인터페이스는 접근성을 높이고, 교육 현장에서 즉각적인 의사결정을 지원한다는 점에서 교육공학적 의의가 크다.
전체적으로 본 연구는 (1) 숨은 요인을 체계적으로 발굴·코딩, (2) 두 가지 대표적인 머신러닝 알고리즘을 비교·평가, (3) 모바일 환경에 모델을 배포함으로써 실용성을 확보했다는 점에서 학술적·실무적 기여도가 높다. 다만 표본이 한 대학에 국한되고, 설문 기반 데이터 특성상 자기보고 편향이 존재할 수 있다는 제한점이 남아 있다. 향후 다기관 데이터와 심층 학습 모델을 도입하면 일반화 가능성을 더욱 강화할 수 있을 것이다.
댓글 및 학술 토론
Loading comments...
의견 남기기