Wavelet 기반 Gradient Boosting 개선

본 논문은 기존 Stochastic Gradient Boosting에 결정 트리의 웨이브릿 분해를 적용하여 노드 중요도를 정량화하고, 웨이브릿 노름에 기반한 적응형 프루닝을 수행한다. 실험 결과, 클래스 불균형 및 라벨 오염이 심한 상황에서도 제안 방법이 기존 GBM 대비 높은 정확도와 일반화 성능을 보인다.

저자: Shai Dekel, Oren Elisha, Ohad Morgan

Wavelet 기반 Gradient Boosting 개선
논문은 먼저 결정 트리와 Gradient Boosting(GB)의 기본 원리를 정리한다. 회귀·분류 문제에서 입력 공간 Ω₀를 하이퍼플레인으로 반복 분할해 얻은 서브 도메인 Ωⱼ에 대해, 각 서브 도메인에 저차 다항식 QΩⱼ를 적합시킨다. 이때 트리의 각 노드는 부모 영역 Ω와 자식 영역 Ω′ 사이의 평균 차이를 나타내며, 전통적인 GB는 이러한 트리를 고정 깊이(J) 혹은 사전·사후 프루닝 기준에 따라 제한한다. 본 연구는 이러한 트리 구조를 웨이브릿 이론에 매핑한다. 자식 영역 Ω′와 부모 영역 Ω 사이의 차이 QΩ′−QΩ를 1Ω′(·) 형태로 정의하고, 이를 ψΩ′라 명명한다. ψΩ′는 “지역 차이” 성분이며, L² 노름 ‖ψΩ′‖₂는 해당 노드가 데이터 변동을 얼마나 잘 설명하는지를 정량화한다. 이 정의는 다항식 차수 r−1에 대해 0‑모멘트 성질을 만족하므로, 실제 함수가 해당 차수 이하라면 ψΩ′=0이 된다. 따라서 노드의 웨이브릿 노름이 클수록 고주파(세부) 정보를 담고 있음을 의미한다. 이론적 결과로는 ψΩ′들의 텔레스코픽 합성 f=∑ψΩ′ (초기 평균 ψΩ₀ 포함) 가 Lᵖ 수렴성을 갖는다는 정리를 제시한다. 또한, 노름에 기반한 정렬 ψΩ₁, ψΩ₂,… 에 대해 M‑term 근사 T_M(x)=∑_{j=1}^M ψΩ_{k_j}(x) 를 수행하면, 희소 근사와 동일한 오류 감소 효과를 얻을 수 있다. 이는 전통적인 다이아딕 큐브 기반 웨이브릿 M‑term 근사와 구조적으로 유사하지만, 트리의 비균등 분할에 맞게 일반화된 형태이다. 알고리즘 1에서는 Stochastic GB와 결합한 “Geometric Wavelet Gradient Boosting(GW‑GB)”을 제시한다. 각 부스팅 라운드 k에서 (a) 현재 모델의 잔차를 계산하고, (b) 전체 특성 중 무작위 m′개를 선택해 OOB 샘플을 제외한 데이터로 완전 트리를 성장시킨다. (c) 성장된 트리의 모든 자식 노드에 대해 ‖ψΩ′‖₂를 계산하고 내림차순 정렬한다. (d) OOB 샘플을 이용해 손실 L(y,∑_{j=1}^M ψΩ_{k_j}(x))이 최소가 되는 M을 탐색한다. (e) 선택된 M개의 웨이브릿을 선형 결합해 현재 단계의 약한 학습기로 추가한다. 이렇게 하면 프루닝이 트리 깊이가 아니라 노드의 정보량에 의해 결정되며, 각 단계마다 가장 유용한 고·저해상도 정보를 동시에 활용한다. 실험에서는 1) 클래스 불균형 데이터셋(다중 클래스, 비율 1:10~1:100), 2) 라벨 오염(30%까지 무작위 교체), 3) 회귀 잡음(다양한 SNR) 상황을 설정했다. 비교 대상은 XGBoost, LightGBM, CatBoost, Random Forest, 그리고 기존 Stochastic GBM이다. 평가 지표는 AUC, F1‑Score, RMSE 등이다. 결과는 GW‑GB가 모든 시나리오에서 평균 5~12%의 성능 향상을 보였으며, 특히 불균형 데이터에서 소수 클래스의 재현율이 크게 개선되었다. 라벨 오염 실험에서는 OOB 기반 M 선택이 과적합을 억제해 정확도가 7% 이상 유지되었다. 회귀 실험에서도 M‑term 웨이브릿 선택이 과도한 트리 깊이에 비해 더 낮은 RMSE를 기록했다. 또한, 메모리 사용량과 학습 시간은 기존 GBM과 비슷하거나 약간 증가했지만, 모델 해석 가능성(노드 중요도 시각화)과 잡음에 대한 강인성에서 큰 장점을 제공한다. 결론적으로, 논문은 결정 트리의 구조적 정보를 웨이브릿 노름이라는 수학적 척도로 변환함으로써, 기존 GBM의 프루닝 한계를 극복하고, 데이터‑드리븐 방식의 적응형 모델 압축을 구현한다. 제안 방법은 특히 데이터가 불균형하거나 라벨이 불확실한 실무 환경에서 유용하며, 향후 다중 스케일 특징 학습이나 딥러닝과의 하이브리드 모델에도 확장 가능성을 제시한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기