연합학습으로 위험학생 예측 모델 복잡도와 데이터 균형 비교 연구

연합학습으로 위험학생 예측 모델 복잡도와 데이터 균형 비교 연구
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대규모 OULAD 데이터를 활용해 연합학습(Federated Learning) 환경에서 학생 이탈 위험을 예측한다. 로지스틱 회귀와 심층 신경망(DNN)의 복잡도를 비교하고, 각 기관별 SMOTE 기반 데이터 균형이 성능에 미치는 영향을 분석한다. 연합 모델은 중앙집중식 모델에 비해 약간의 성능 저하(ROC‑AUC 85% 수준)만을 보이며, 프라이버시 보호와 확장성을 동시에 확보한다는 결론을 제시한다.

상세 분석

이 연구는 교육 데이터 마이닝 분야에서 프라이버시 보호와 예측 정확도 사이의 트레이드오프를 실증적으로 탐구한다. 먼저 OULAD 데이터셋을 7개의 코스 모듈별로 분할해 각 모듈을 독립적인 기관으로 가정함으로써 현실적인 연합학습 시나리오를 구축하였다. 데이터 전처리 단계에서는 ‘Fail’ 결과를 위험 학생(1)으로, ‘Pass’·‘Distinction’를 정상 학생(0)으로 라벨링하고, ‘Withdrawn’ 사례는 제외하였다. 이렇게 정제된 22,437명 학생을 대상으로 조기 학업 성과(평균 초기 점수, 초기 과제 제출 횟수), 참여량(총 클릭 수, 활동 일수), 참여 질(퀴즈·포럼·콘텐츠 클릭 수) 등 8개의 파생 변수를 생성하였다.

모델링 측면에서는 두 가지 복잡도 수준을 선택했다. 첫 번째는 선형 모델인 로지스틱 회귀(LR)이며, 두 번째는 두 개의 은닉층(32, 16 뉴런)과 ReLU 활성화 함수를 갖는 피드포워드 DNN이다. 연합학습에서는 FedAvg 알고리즘을 적용해 각 기관이 로컬 데이터를 사용해 모델을 업데이트하고, 서버가 가중치를 평균한다. 흥미로운 점은 LR의 경우 로컬 데이터 불균형을 완화하기 위해 SMOTE를 적용했으며, DNN에서는 별도의 오버샘플링 없이 원본 데이터를 사용했다는 점이다.

실험 결과는 네 가지 조건(중앙집중 LR, 중앙집중 DNN, 연합 LR+SMOTE, 연합 DNN)으로 비교되었다. 중앙집중 LR는 ROC‑AUC 0.84, 중앙집중 DNN은 0.86을 기록했으며, 연합 LR+SMOTE는 0.83, 연합 DNN은 0.85로 나타났다. 즉, 연합 환경에서도 복잡한 DNN이 약간의 성능 저하만을 보이며 중앙 모델에 근접했음을 확인할 수 있다. 또한, 로컬 SMOTE 적용이 연합 LR의 성능을 유지하는 데 기여했으며, 데이터 불균형이 심한 기관별로는 오버샘플링이 없을 경우 성능이 급격히 떨어지는 현상이 관찰되었다.

통계적 이질성(Non‑IID) 문제에 대한 별도 조치는 없었지만, 각 모듈 간 데이터 분포 차이가 모델 수렴 속도와 최종 성능에 미치는 영향을 논의한다. 학습 라운드 수는 50회로 설정했으며, 매 라운드마다 전역 검증 세트를 이용해 AUC를 모니터링했다. 학습 곡선은 초기 10라운드에서 급격히 상승한 뒤 완만하게 수렴했으며, DNN이 LR보다 더 많은 라운드에서 성능 향상을 지속했다.

프라이버시 측면에서는 원본 데이터가 로컬에 머무르고 파라미터만 전송되므로 GDPR·LGPD 등 규제 준수가 용이함을 강조한다. 또한, 연합 학습 인프라가 클라우드 혹은 엣지 디바이스에 배포될 경우, 교육기관 간 데이터 공유 비용을 크게 절감할 수 있다.

한계점으로는 실제 교육기관 네트워크 지연, 통신 비용, 보안 공격(예: 모델 역공학) 등을 고려하지 않았으며, SMOTE와 같은 오버샘플링 기법이 연합 환경에서 어떻게 최적화될 수 있는지에 대한 추가 연구가 필요하다. 향후 연구에서는 차등 프라이버시, 개인화 연합 학습(PFL), 그리고 비동기식 업데이트 방식을 도입해 성능‑프라이버시 트레이드오프를 더욱 정교하게 탐색할 계획이다.


댓글 및 학술 토론

Loading comments...

의견 남기기