대학 졸업 후 소득 예측을 위한 특성 선택 연구

대학 졸업 후 소득 예측을 위한 특성 선택 연구
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 연구는 미국 교육부 자료를 활용해 재정 지원을 받은 대학 졸업생의 6년 차 소득에 영향을 미치는 핵심 변수를 탐색한다. 2001·2003·2005년 졸업생 1,429개 코호트를 대상으로 30개 변수 중 필터, 전진 선택, 유전 알고리즘 등 세 가지 방법으로 특성을 선정하고, 다섯 그룹의 머신러닝 분류 모델에 적용하였다. 결과는 인근 지역의 전문 학위 비율, 부모 소득, SAT 점수, 가정 내 대학 교육 경험 등이 소득 차별에 중요한 역할을 함을 시사한다.

상세 분석

이 논문은 미국 고등교육 분야에서 재정 지원을 받은 학생들의 장기 소득을 예측하기 위해 데이터 마이닝 기법을 체계적으로 적용한 사례이다. 우선 데이터는 미국 교육부(Department of Education)의 최신 공개 데이터를 기반으로 2001, 2003, 2005년 졸업생을 각각 476·476·477명씩 추출해 총 1,429개의 코호트로 구성하였다. 각 코호트는 30개의 변수(인구통계학적 특성, 학업 성취도, 지역사회 요인, 대학 특성 등)로 기술되었으며, 종속 변수는 졸업 후 6년 차 연간 소득이다.

특성 선택 단계에서는 세 가지 접근법을 병행하였다. 첫 번째는 통계적 필터 방법으로, 변수와 종속 변수 간의 상관계수와 χ² 검정을 통해 독립적인 예측력을 가진 변수를 사전 선별한다. 두 번째는 전진 선택(Forward Selection)으로, 다중 회귀 모델에 변수를 하나씩 추가하면서 AIC(아카이케 정보 기준)와 교차 검증 정확도를 동시에 고려한다. 세 번째는 유전 알고리즘(Genetic Algorithm, GA) 기반의 탐색으로, 이진 인코딩된 개체군을 진화시켜 최적의 변수 조합을 도출한다. 세 방법 모두 변수 수를 30개에서 8~12개 수준으로 크게 축소했으며, 선택된 변수 집합 간에 상당한 중복성이 존재했지만, 각 방법이 포착한 특성이 미세하게 달라 모델 다양성을 확보했다.

다음으로 선택된 변수 집합을 이용해 다섯 그룹의 머신러닝 분류 알고리즘을 적용하였다. 그룹 1은 전통적인 선형 모델(LR, LDA)이며, 그룹 2는 트리 기반 모델(Random Forest, Gradient Boosting), 그룹 3은 커널 기반 SVM, 그룹 4는 인공신경망(MLP), 그룹 5는 앙상블 스태킹 모델이다. 각 모델은 10‑fold 교차 검증을 통해 정확도, F1‑score, ROC‑AUC 등을 평가했으며, 전반적으로 트리 기반 모델이 가장 높은 예측 성능을 보였다(ROC‑AUC ≈ 0.78).

핵심 변수 분석에서는 ‘인근 지역의 전문 학위 취득 비율(Nearby Professional Degree Attainment)’, ‘부모 연간 소득(Parental Income)’, ‘SAT 총점(SAT Score)’, ‘가족 중 대학 교육 경험(Family College Education)’이 일관되게 높은 중요도를 나타냈다. 특히 인근 지역의 전문 학위 비율은 지역 인적 자본이 개인 소득에 미치는 파급 효과를 반영하는 지표로, 해당 변수가 포함된 모델에서 소득 예측 정확도가 평균 4%p 상승했다. SAT 점수는 전통적인 학업 성취 지표로서, 고득점 그룹이 고소득 그룹에 편중되는 경향을 확인했다. 부모 소득과 가족의 대학 교육 경험은 사회경제적 배경이 장기 소득 형성에 미치는 구조적 영향을 보여준다.

사회학적 해석 측면에서는 이러한 변수들이 ‘사회적 계층 재생산(social stratification)’ 메커니즘을 강화한다는 점을 강조한다. 즉, 고소득 가정 출신 학생이 더 높은 SAT 점수와 대학 교육 경험을 통해 고소득 직업군에 진입할 확률이 높아지며, 이는 지역사회 수준의 전문 학위 비율과 상호작용해 지역 간 소득 격차를 확대한다. 연구는 정책적 함의로, 재정 지원 정책이 단순히 학비 보조에 머무르지 않고, 학업 성취도 향상 프로그램, 지역 인적 자본 강화, 부모 교육 지원 등을 포함해야 장기 소득 격차를 완화할 수 있음을 제시한다.

전반적으로 이 논문은 대규모 교육 데이터에 특성 선택과 머신러닝을 결합함으로써, 복합적인 사회경제적 요인이 졸업 후 소득에 미치는 영향을 정량적으로 밝히는 데 성공하였다. 향후 연구에서는 시간에 따른 변수 변동성, 비선형 상호작용, 그리고 직업군별 세분화 분석을 통해 보다 정교한 인과 메커니즘을 규명할 필요가 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기