다중 클래스 분류를 위한 ABC LogitBoost
초록
본 논문은 기존의 LogitBoost와 MART 기반 알고리즘의 한계를 극복하고자, Adaptive Base Class(ABC) 전략와 강건한 손실 함수를 결합한 ABC‑LogitBoost를 제안한다. 다중 클래스 로지스틱 손실을 최소화하면서 각 단계에서 최적의 기준 클래스를 동적으로 선택함으로써 학습 효율과 예측 정확도를 크게 향상시킨다. 다양한 공개 데이터셋에 대한 실험 결과, ABC‑LogitBoost가 기존 방법들에 비해 2~5% 정도의 오류율 감소와 학습 시간 단축을 달성함을 보여준다.
상세 분석
ABC‑LogitBoost는 다중 클래스 분류 문제에 특화된 부스팅 프레임워크로, 두 가지 핵심 아이디어를 결합한다. 첫 번째는 ‘Adaptive Base Class(ABC)’ 개념이다. 기존의 다중 클래스 LogitBoost는 K‑1개의 이진 분류기를 독립적으로 학습하거나, 모든 클래스에 대해 동일한 기준을 사용한다. 그러나 클래스 간 상호작용이 강한 경우, 특정 클래스가 다른 클래스에 비해 학습 과정에서 과도하게 영향을 미치거나, 반대로 무시되는 현상이 발생한다. ABC 접근법은 매 반복(iteration)마다 현재 모델의 예측 확률을 기반으로 가장 불확실하거나 손실에 크게 기여하는 클래스를 ‘베이스 클래스’로 선택한다. 이렇게 선택된 베이스 클래스는 해당 단계에서의 그래디언트와 헤시안 계산에 중심이 되며, 다른 클래스들은 베이스 클래스를 기준으로 상대적인 확률 차이를 학습한다. 결과적으로 모델은 어려운 클래스에 더 많은 학습 자원을 할당하면서도 전체적인 균형을 유지한다.
두 번째는 ‘Robust LogitBoost’에서 차용한 손실 함수와 2차 근사 방식이다. 전통적인 LogitBoost는 로그우도 손실을 직접 최소화하지만, 수치적 불안정성(특히 확률이 0에 가까워질 때 발생하는 로그 무한대) 때문에 학습이 발산하거나 과적합될 위험이 있다. 이를 해결하기 위해 논문은 손실 함수를 ‘트렁케이트된’ 형태로 변형하고, 2차 테일러 전개 시 헤시안을 대체할 수 있는 상한값을 도입한다. 이 상한값은 각 트리 리프 노드에서의 가중치 업데이트를 제한함으로써, 급격한 파라미터 변동을 방지하고 학습 안정성을 크게 높인다.
알고리즘 흐름은 다음과 같다. (1) 초기화 단계에서 모든 클래스에 대해 균등한 확률을 부여한다. (2) 현재 모델의 예측을 기반으로 베이스 클래스를 선택한다. (3) 선택된 베이스 클래스를 기준으로 각 클래스에 대한 1차 그래디언트와 2차 근사값(헤시안 상한)을 계산한다. (4) 이 값들을 이용해 회귀 트리(보통 CART)를 학습하고, 트리의 리프별 가중치를 업데이트한다. (5) 전체 모델을 업데이트하고, 수렴 기준이나 사전 정의된 반복 횟수에 도달할 때까지 (2)~(5)를 반복한다.
이 과정에서 중요한 설계 선택은 ‘베이스 클래스 선택 기준’이다. 논문은 각 클래스별 현재 손실 기여도와 예측 확률의 엔트로피를 결합한 스코어 함수를 제안한다. 이 스코어는 높은 손실을 가진 클래스와 확률이 불확실한 클래스를 동시에 고려하므로, 학습 초기에 데이터가 고르게 분포된 경우에도 효과적으로 베이스 클래스를 교체한다. 또한, 트리 학습 시 ‘샘플 가중치’를 그래디언트 크기에 비례하도록 설정함으로써, 어려운 샘플이 더 깊은 트리 구조에서 분리될 가능성을 높인다.
실험에서는 MNIST, CIFAR‑10, Letter, Pendigits 등 10개 이상의 공개 데이터셋을 사용하였다. 각 데이터셋에 대해 동일한 하이퍼파라미터(트리 깊이, 학습률, 반복 횟수)를 적용했음에도 불구하고, ABC‑LogitBoost는 평균 3.2%p(percentage point)의 정확도 향상을 보였다. 특히 클래스 불균형이 심한 데이터(예: Letter)에서는 오류율 감소가 5%p에 달했다. 학습 시간 측면에서도 베이스 클래스 선택 연산이 O(K) 수준에 불과해 전체 복잡도에 큰 영향을 주지 않았으며, 실제 실행 시간은 기존 LogitBoost 대비 10~15% 정도 단축되었다.
이러한 결과는 ABC‑LogitBoost가 다중 클래스 문제에서 ‘어려운 클래스’에 집중하면서도 전체 모델의 일반화 능력을 유지한다는 점을 시사한다. 또한, 손실 함수의 트렁케이션과 헤시안 상한 도입이 수치적 안정성을 확보해, 높은 차원의 특성 공간에서도 안정적인 학습을 가능하게 한다. 향후 연구에서는 베이스 클래스 선택을 강화학습 기반 정책으로 확장하거나, 딥러닝 기반 약학습기와 결합해 하이브리드 부스팅 구조를 탐색할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기