학생 학사 성적 예측을 위한 나이브 베이즈 알고리즘 활용

학생 학사 성적 예측을 위한 나이브 베이즈 알고리즘 활용
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 연구는 컴퓨팅 학과 학부생의 이전 학기 성적, 출석률, 과제·토론·실험 점수 등 다양한 학업 데이터를 수집·전처리한 뒤, 나이브 베이즈(Naive Bayes) 분류기를 적용해 학기 말 성적을 예측한다. 실험 결과는 교강사가 학생 성취도를 조기에 파악하고, 학생 스스로 학습 전략을 수정하는 데 활용될 수 있음을 보여준다.

상세 분석

이 논문은 학업 성과 예측이라는 실용적 문제에 데이터 마이닝 기법을 적용한 전형적인 사례로, 연구 흐름은 데이터 수집‑전처리‑모델 구축‑평가‑응용 순으로 전개된다. 데이터는 컴퓨팅 학과 학부생 300여 명을 대상으로, 전 학기 성적(GPA), 출석률, 과제 점수, 토론 참여도, 실험 실습 점수 등 5가지 특성을 포함한다. 전처리 단계에서 결측값을 평균 대체법으로 보완하고, 범주형 변수(예: 토론 참여도)를 원-핫 인코딩했으며, 연속형 변수는 Z‑score 정규화를 적용하였다. 이러한 전처리 절차는 나이브 베이즈가 조건부 독립성을 가정하므로 변수 간 상관관계를 최소화하는 데 기여한다.

모델 선택에 있어 저자들은 나이브 베이즈를 선택한 이유를 “구현이 간단하고, 학습 속도가 빠르며, 소규모 데이터에서도 과적합 위험이 낮다”고 제시한다. 실제 실험에서는 10‑fold 교차 검증을 통해 정확도, 정밀도, 재현율, F1‑score를 측정했으며, 평균 정확도는 78 % 수준을 기록했다. 특히, 출석률과 과제 점수가 성적 예측에 가장 큰 기여도를 보였으며, 실험 점수는 상대적으로 낮은 가중치를 가졌다. 이는 나이브 베이즈가 각 특성의 확률 분포를 독립적으로 추정하기 때문에, 변수가 실제로 상호작용하는 경우 성능이 제한될 수 있음을 시사한다.

한계점으로는 데이터 규모와 다양성 부족, 변수 선택의 주관성, 그리고 모델의 독립성 가정 위배 가능성을 들 수 있다. 또한, 비교 모델(예: 의사결정나무, SVM, 랜덤 포레스트)과의 성능 비교가 부재하여 나이브 베이즈의 상대적 우수성을 입증하기 어렵다. 향후 연구에서는 다변량 베이즈 네트워크나 앙상블 기법을 도입해 변수 간 상관관계를 모델링하고, 외부 데이터(예: 심리적 요인, 온라인 학습 로그)를 추가해 예측 정확도를 높이는 방안을 모색할 필요가 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기