머신러닝 파이프라인을 신경망으로 전환하기: 랜덤 포레스트 → MLP 지식 증류 연구
본 논문은 기존 머신러닝 파이프라인에서 랜덤 포레스트를 교사 모델로 삼아, 학생 신경망(MLP)으로 변환하는 지식 증류 방식을 제안한다. 100개의 OpenML 과제에 대해 600가지 MLP 구성을 시험했으며, 적절한 하이퍼파라미터 선택 시 학생 모델이 교사 모델을 대부분 따라잡는다. 또한 랜덤 포레스트를 이용한 자동 하이퍼파라미터 선택이 제한적인 메타데이터와 샘플 수 때문에 성능 향상에 크게 기여하지 못함을 확인하였다.
저자: Man-Ling Sung, Jan Silovsky, Man-Hung Siu
본 논문은 머신러닝 파이프라인을 하나의 통합 신경망 프레임워크로 전환하는 방안을 탐구한다. 기존의 학생‑교사 지식 증류는 주로 대형 딥러닝 모델을 경량화하는 데 사용되었으나, 저자들은 비신경망 기반 교사, 즉 랜덤 포레스트(RF)를 교사 모델로 삼아 신경망 학생(MLP)으로 변환하는 새로운 전이 학습 시나리오를 제시한다.
연구 배경에서는 파이프라인 각 구성 요소를 신경망으로 변환하면 GPU 가속, 통합 최적화, 동적 환경 적응 등 여러 장점이 있다는 점을 강조한다. 특히 RF는 다양한 데이터셋에서 높은 성능을 보이는 대표적인 앙상블 모델이며, 이를 신경망으로 대체함으로써 파이프라인 전체를 하나의 NN으로 묶을 수 있다.
방법론에서는 OpenML에서 제공하는 100개의 분류 과제를 선택하고, 각 과제에 대해 동일한 전처리·PCA·RF 플로우를 사용한다. 교사 모델은 sklearn의 RandomForestClassifier이며, 학생 모델은 sklearn의 MLPClassifier로 대체한다. 600가지 MLP 구성을 정의했으며, 이는 레이어 수(2~3), 각 레이어의 노드 수 비율(0.2~1.0), 활성화 함수(relu, tanh), 초기 학습률(1e‑2~1e‑5) 등을 조합한 것이다.
학생 모델은 교사의 예측 라벨(ˆy)을 사용해 학습한다. 즉, 원본 훈련 데이터 x와 교사가 생성한 라벨 ˆy를 새로운 학습 세트 T′에 넣어 10‑fold 교차 검증을 수행한다. 각 과제마다 10개의 RF 교사와 10개의 MLP 학생을 독립적으로 학습시킨 뒤, 평균 정확도로 성능을 평가한다.
실험 결과는 다음과 같다. 전체 과제 중 55%에서 MLP 학생이 교사와 동등하거나 더 높은 정확도를 달성했으며, 평균적으로는 교사보다 2.66% 낮은 성능을 보였다. 그러나 중위값 기준에서는 차이가 거의 없으며(0.01% 향상), 성능 격차는 소수의 극단적 아웃라이어에 의해 발생한다. 일부 과제에서는 MLP가 RF보다 더 나은 성능을 보였는데, 이는 RF가 직사각형 영역으로 특징 공간을 분할하는 반면, MLP는 부드러운 비선형 경계를 학습해 특정 데이터 구조에 더 적합하기 때문이다.
다음으로, 600개의 학생 중 상위 N개만 선택해도 전체 성능을 크게 유지할 수 있음을 확인했다. 최적 하나의 모델만 사용해도 평균 성능 차이는 0.9%에 불과했으며, 상위 20개 모델을 조합하면 차이가 0.45%로 절반 수준으로 감소한다. 이는 실제 배포 시 모델 저장·학습 비용을 크게 절감할 수 있음을 시사한다.
자동 모델 선택을 위해 메타러닝 접근을 시도했다. OpenML이 제공하는 74개의 메타피처(데이터 크기, 클래스 수, 결측 비율 등)를 입력으로 랜덤 포레스트 회귀기를 학습시켜, 주어진 과제에 가장 적합한 MLP 구성을 예측하도록 했다. 그러나 메타피처가 학생 모델 성능을 충분히 설명하지 못했고, 샘플 수가 100개에 불과해 과적합 위험이 커졌다. 결과적으로 자동 선택은 최적 모델을 찾는 데 실패했으며, 메타데이터의 한계와 데이터 양의 부족이 주요 원인으로 지적된다.
결론에서는 파이프라인 전체를 신경망으로 전환하는 장기적 비전을 제시한다. 현재는 백엔드 분류기(RF)를 MLP로 교체하는 단계에 머물지만, 향후에는 특징 추출·전처리 단계까지 신경망으로 대체하고, 데이터 증강 및 엔드‑투‑엔드 공동 최적화를 통해 전체 파이프라인을 하나의 통합 NN으로 구현할 수 있다. 또한, 메타러닝 기반 자동 하이퍼파라미터 탐색을 위해 더 풍부한 메타피처와 대규모 메타학습 데이터셋이 필요함을 강조한다.
본 연구는 비신경망 교사를 신경망 학생으로 변환하는 가능성을 실증적으로 보여주며, 하이퍼파라미터 탐색, 모델 집합 축소, 메타러닝 기반 자동 선택 등 실용적인 관점을 동시에 제공한다. 이는 향후 자동화된 머신러닝(AutoML) 시스템에서 다양한 알고리즘을 신경망 형태로 통합하고, 효율적인 배포와 유지보수를 가능하게 하는 중요한 초석이 될 것이다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기