학생 실패율 예측을 위한 다중유전자 유전 프로그래밍 모델

초록

본 연구는 다중유전자 유전 프로그래밍(Multi‑Gene GP)을 활용한 학생 실패율 예측 소프트웨어 GPSFARPS를 개발하고, 기존 로지스틱 회귀·인공신경망·퍼지 로직의 한계를 극복함을 보였다. 데이터 스케일링이나 이진 변환 없이 원시 데이터를 그대로 사용해 30세대 이내에 수렴한 간결한 수식 모델을 도출했으며, 테스트 데이터에 대해 높은 예측 정확도를 확보하였다.

상세 요약

이 논문은 교육 현장에서 학생 실패율(Student Failure Rate, SFR)을 정밀하게 예측하기 위한 모델링 접근법으로 다중유전자 유전 프로그래밍(Multi‑Gene GP)을 선택한 점이 가장 큰 특징이다. 기존의 로지스틱 회귀는 입력 변수를 이진 형태로 변환하거나 정규화가 필요해 정보 손실과 효과 크기 감소를 초래한다는 비판을 받는다. 인공신경망(ANN)과 퍼지 로직 시스템은 높은 예측 성능을 보이지만, 내부 가중치와 규칙이 블랙박스로 작용해 결과 해석이 어렵고, 특히 데이터가 불균형하거나 결측치가 많을 때 모델 안정성이 떨어진다.

GP는 진화 알고리즘을 이용해 수학적 표현식을 직접 탐색하므로, 데이터 전처리 요구가 낮고, 도출된 모델이 수식 형태이기 때문에 해석 가능성이 높다. 특히 다중유전자 구조는 여러 개의 서브 트리를 결합해 복합적인 관계를 포착하면서도 각 유전자의 가중치를 최적화해 과적합을 방지한다. 논문에서는 최대 500세대까지 실행하도록 설정했지만, 실제 수렴은 30세대에서 이루어졌으며, 이는 탐색 공간이 효율적으로 축소되었음을 의미한다.

실험에서는 기존 데이터셋을 훈련·검증·테스트로 분할하고, GP 파라미터(인구 규모, 교차·돌연변이 확률, 최대 트리 깊이 등)를 적절히 조정했다. 결과적으로 도출된 최종 모델은 원래 변수 집합의 일부만을 사용해도 높은 예측 정확도를 유지했으며, 모델 복잡도는 최소화되었다. 이는 다중유전자가 자동으로 변수 선택과 차원 축소를 수행했기 때문이다. 또한, 모델이 수식 형태이므로 교육 정책 입안자가 특정 변수(예: 출석률, 과제 제출 횟수)의 영향력을 직관적으로 파악할 수 있다.

하지만 논문에는 몇 가지 한계도 존재한다. 첫째, 사용된 데이터셋 규모와 특성이 명시되지 않아 일반화 가능성을 판단하기 어렵다. 둘째, GP는 초기 파라미터 설정에 민감하며, 연산 비용이 높은 편이므로 대규모 데이터에 적용하려면 병렬화나 GPU 활용이 필요하다. 셋째, 모델 검증이 단일 테스트 셋에 국한돼 교차 검증이나 외부 검증 데이터에 대한 평가가 부족하다. 이러한 점들을 보완한다면 다중유전자 GP는 교육 데이터 마이닝 분야에서 강력한 도구가 될 수 있다.

초록

상세 요약

📜 논문 원문 (영문)