학생 성공을 위한 AI 조기경보: 정적 특성의 우위와 시점별 모델 선택
초록
본 연구는 온라인 강좌의 전반부(주 2~20)에서 정적 인구통계 특성이 예측에 68% 기여한다는 사실을 밝히고, Decision Tree와 LSTM 모델을 시점별로 비교한다. 초기(주 2‑4)에는 LSTM이 97%의 높은 재현율을 보여 조기 개입에 적합하고, 중기(주 8‑16)에는 Decision Tree가 안정적인 정확도와 해석 가능성으로 자원 배분에 유리하다. 마지막 주(주 20)에서는 LSTM이 90%의 정밀도를 달성해 높은 신뢰도의 경고를 제공한다. 연구 결과는 개입 시점에 따라 모델을 선택해야 함을 제시한다.
상세 분석
이 논문은 온라인 학습 환경에서 위험 학생을 조기에 식별하기 위한 실용적 프레임워크를 제시한다. 데이터는 OULAD(Open University Learning Analytics Dataset)에서 추출했으며, 32,593명의 학생을 7개 코스에 걸쳐 11개의 특성(인구통계 8개, 학업 이력 2개, 클릭 수 1개)으로 구성했다. 특히 평가 점수와 같은 시계열 특성은 모델 학습에 제외해 ‘평가‑프리’ 예측을 가능하게 했다.
시점은 주 2, 4, 8, 12, 16, 20(코스 전체의 50%)으로 설정했으며, 각 시점마다 해당 일자 이전의 데이터만 사용해 모델을 평가했다. 중요한 점은 모델을 한 번만 전체 데이터로 학습하고, 시점별 테스트만 수행함으로써 미래 정보가 누설되는 것을 방지했다.
Decision Tree는 전체 데이터에 대해 76.85% 정확도, 78% 정밀도·재현율을 기록했으며, 시점이 진행될수록 정밀도는 상승(74→86%)하고 재현율은 감소(83→68%)했다. 이는 모델이 더 많은 데이터가 축적될수록 보수적으로 작동해 ‘거짓 양성’을 줄이는 경향을 보인다는 의미다. 또한, 트리 구조는 해석 가능성을 제공해 교육자에게 의사결정 근거를 제시한다.
LSTM은 두 개의 LSTM 레이어(64→32)와 드롭아웃을 사용했으며, 84시간(일) 시퀀스를 입력으로 받았다. 짧은 시점(주 2)에서는 대부분이 제로 패딩된 데이터로 인해 정확도가 낮았지만(53.8%) 재현율은 97.3%로 매우 높았다. 이는 초기 단계에서 ‘위험 학생을 놓치지 않는’ 것이 가장 중요하다는 교육 현장의 요구와 부합한다. 시점이 진행될수록 패딩이 감소하고 실제 데이터가 늘어나면서 정확도와 정밀도가 크게 향상돼 주 20에서는 80% 정확도와 90% 정밀도를 달성했다.
특징 중요도 분석 결과, 인구통계 특성이 전체 중요도의 68%를 차지했으며, 특히 지역(27.66%), 이수 학점(13.5%), 사회경제적 지위(IMD 밴드, 11.39%)가 핵심 변수로 나타났다. 클릭 수와 같은 행동 기반 특성은 1.34%에 불과했다. 이는 ‘정적 특성만으로도 초기 예측이 충분히 가능하다’는 강력한 근거를 제공한다.
시점별 모델 선택 가이드라인은 다음과 같다.
- 초기 개입(주 2‑4) – 재현율 최우선 → LSTM 사용 (97% 재현율).
- 중기 자원 배분(주 8‑16) – 정확도·정밀도·해석 가능성 균형 → Decision Tree 사용 (78% 정확도, 85% 정밀도).
- 후기 고정밀 경고(주 20) – 정밀도 최우선 → LSTM 사용 (90% 정밀도).
이러한 프레임워크는 교육 기관이 언제, 어떤 모델을 적용해야 하는지를 명확히 제시한다. 또한, 정적 특성만으로도 초기 예측이 가능하다는 점은 데이터 수집 비용을 크게 절감하고, 개인정보 보호 측면에서도 유리하다.
한계점으로는 평가 데이터를 전혀 활용하지 않았으며, Decision Tree 외에 랜덤 포레스트, XGBoost 등 앙상블 모델과의 비교가 부족했다는 점을 들 수 있다. 향후 연구에서는 평가 점수를 포함한 하이브리드 모델을 개발하고, LSTM 구조를 정적 특성 대신 순수 시계열 입력에 최적화하는 방안을 모색할 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기