MOOC 학습자 이탈 예측을 위한 구조적 행동 그래프 분석
초록
본 논문은 비디오 클릭스트림과 포럼 활동을 결합한 시퀀스를 그래프 형태로 모델링하여, 학습자의 활동 구조가 이탈을 예고하는지를 탐색한다. n‑gram, 활동 비율, 그래프 메트릭(밀도, 자기루프, 강연결성분 등)을 특징으로 사용해 현재 주와 누적 주 데이터를 각각 학습시킨 뒤, 기존 n‑gram 기반 베이스라인보다 높은 예측 정확도를 달성하였다.
상세 분석
이 연구는 MOOC 학습자의 행동을 단순 시계열이 아닌 활동 그래프로 변환함으로써, 행동 간 전이와 지속성을 정량화한다는 점에서 의미가 크다. 비디오 클릭스트림을 ‘활동’(플레이, 일시정지, 앞·뒤 탐색, 속도 변화 등)과 포럼 활동을 ‘포스트, 댓글, 스레드, 투표, 조회’ 등으로 정의하고, 시간 순서대로 2‑step 윈도우를 적용해 방향성 있는 가중치 그래프를 구축한다. 이렇게 만든 그래프에서 노드·엣지 수, 밀도, 자기루프, 강연결성분(SCC), 중심 활동·전이를 추출하는 접근은 기존 연구가 주로 사용하던 단일 로그 혹은 포럼 기반 사회적 위치 메트릭을 넘어, 멀티모달 상호작용의 구조적 특성을 포착한다는 장점이 있다.
특히 ‘활동/수동’ 구분을 비디오와 포럼 각각에 적용해 활성도 비율을 특징으로 포함시킨 점은 학습자의 몰입 정도를 정량화하는 실용적 지표가 된다. 90‑9‑1 법칙을 그래프 메트릭 분포와 연결 지어, 소수의 활발한 참여자가 전체 네트워크 구조에 미치는 영향을 시각화한 점도 흥미롭다.
실험 설계는 **Curr(현재 주)**와 TCurr(누적 주) 두 가지 시나리오를 비교함으로써, 단기 행동이 이탈을 예측하는지, 혹은 장기 행동 누적이 더 강력한 신호인지를 검증한다. 결과는 TCurr 설정에서 그래프 메트릭의 평균·표준편차가 크게 증가하고, 긴 꼬리 분포를 보이며, 이는 이탈 위험이 높은 소수 학습자의 행동이 누적될수록 모델 성능이 향상된다는 것을 시사한다.
하지만 몇 가지 한계도 존재한다. 데이터 전처리 과정에서 비디오 ID 오류와 로그 누락이 다수 발생했으며, 이는 전체 학습자 중 실제 활동을 기록한 비율이 5%에 불과함을 의미한다. 따라서 모델이 학습한 패턴이 전체 학습자 집단을 대표한다고 보기 어렵다. 또한 그래프를 2‑step 윈도우로만 구성함으로써 장기 전이(예: 일주일 간격의 행동 패턴) 정보를 놓칠 가능성이 있다. 마지막으로, 베이스라인이 단순 n‑gram에 국한돼 있어, 최신 딥러닝 기반 시퀀스 모델과의 비교가 부족하다. 이러한 점들을 보완한다면, 구조적 그래프 접근은 MOOC 이탈 예측뿐 아니라 맞춤형 학습 지원 시스템 설계에도 유용하게 활용될 수 있을 것이다.
댓글 및 학술 토론
Loading comments...
의견 남기기