트리 부스팅 하이퍼파라미터 최적화 방법 비교
초록
본 연구는 59개의 회귀·분류 데이터셋을 대상으로 랜덤 그리드 탐색, TPE, GP‑BO, Hyperband, SMAC, 전체 그리드 탐색 등 여섯 가지 하이퍼파라미터 최적화 기법을 실험적으로 비교한다. 결과는 SMAC이 다른 방법들보다 정확도‑예산 관점에서 가장 우수함을 보여준다. 또한 100회 이상의 탐색이 필요하고, 기본값 사용은 성능 저하를 초래하며, 모든 하이퍼파라미터가 모델 정확도에 의미 있는 영향을 미친다는 점을 확인한다. 회귀 문제에서는 조기 중단(Early Stopping)으로 부스팅 반복 횟수를 결정하는 것이 탐색 공간에 포함시키는 것보다 더 좋은 결과를 낸다.
상세 분석
이 논문은 트리 기반 부스팅 모델, 특히 LightGBM과 동일한 구현을 갖는 GPBoost를 대상으로 하이퍼파라미터 최적화(HPO) 방법들의 실용적 효율성을 정량화한다. 실험 설계는 5‑fold 교차 검증을 기본으로 하며, 각 폴드마다 내부 80/20 분할을 통해 검증 데이터를 생성한다. 하이퍼파라미터 탐색은 20개의 서로 다른 난수 시드와 5개의 폴드에 대해 각각 20번씩 반복해 결과의 변동성을 최소화한다. 탐색 공간은 학습률, 리프 수, 최대 깊이, 최소 샘플 수, L2 정규화, 최대 빈, bagging 비율, feature 비율 등 8개의 주요 파라미터를 포함한다.
각 최적화 기법은 기본 설정을 그대로 사용했으며, TPE와 Hyperband는 Optuna, SMAC은 SMAC3, GP‑BO는 scikit‑optimize를 이용했다. Hyperband는 R=2^150, η=2 로 설정해 전체 탐색 횟수(≈135 000)와 비슷한 연산량을 유지하도록 설계했다. 모든 방법에 대해 최대 135회의 시도(전체 그리드 탐색과 동일한 규모)까지 수행했으며, Hyperband는 9개의 successive‑halving rung을 기록한다.
성능 평가는 회귀에서는 RMSE와 R², 분류에서는 정확도와 로그 손실을 사용했으며, 데이터셋 간 비교를 위해 ADTM(average distance to minimum/maximum) 정규화를 적용했다. 정규화 후 평균 점수, 순위, 최적 대비 상대 차이를 계산해 종합적인 비교 지표를 도출하였다.
실험 결과는 다음과 같다. 첫째, SMAC이 전체 데이터셋에서 평균 정규화 점수와 순위 모두 최상위를 차지했으며, 특히 예산이 제한된 상황(≤100 시도)에서도 다른 방법보다 빠르게 수렴했다. 둘째, 100회 미만의 탐색에서는 모든 방법이 불안정한 성능을 보였으며, 특히 랜덤 그리드와 기본값 사용은 평균적으로 10~15% 정도 정확도가 낮았다. 셋째, 하이퍼파라미터 별 중요도 분석 결과, 학습률, 리프 수, 최소 데이터 수, L2 정규화가 상대적으로 큰 영향을 미쳤지만, 최대 깊이와 최대 빈도 무시할 수 없는 영향을 미쳐 전체 파라미터를 동시에 최적화할 필요성을 강조한다. 넷째, 회귀 작업에서 부스팅 반복 횟수를 조기 중단으로 결정했을 때, 이를 탐색 공간에 포함시키는 경우보다 평균 RMSE가 약 3% 개선되었다. 이는 조기 중단이 과적합을 방지하고 계산 비용을 절감하는 효과가 있음을 시사한다.
또한, Hyperband는 자원 할당 전략이 강점이지만, 본 실험에서는 탐색 횟수와 비교했을 때 SMAC에 비해 초기 수렴 속도가 느렸다. GP‑BO는 연속적인 탐색 특성상 초기 몇 회에서는 좋은 결과를 내지만, 고차원 이산 파라미터가 많은 설정에서는 탐색 효율이 떨어졌다. TPE는 랜덤 그리드보다 전반적으로 우수했으나, SMAC이 제공하는 모델 기반 스케줄링과 다중 피델리티 지원에 비해 한계가 있었다.
결론적으로, 트리 부스팅 모델의 하이퍼파라미터 최적화에서는 모델 기반 메타러닝 기법인 SMAC이 가장 안정적이고 효율적인 선택임을 실증하였다. 또한, 충분한 탐색 예산 확보와 조기 중단 활용이 실무 적용 시 성능을 크게 향상시킬 수 있음을 강조한다.
댓글 및 학술 토론
Loading comments...
의견 남기기