무작위 분류기 투표 기반 앙상블 VORACE
초록
본 논문은 하이퍼파라미터 튜닝이나 도메인 전문 지식 없이도 높은 분류 성능을 얻을 수 있는 새로운 앙상블 기법 VORACE를 제안한다. 무작위로 생성된 여러 분류기의 출력 순위를 투표 규칙(Plurality, Borda, Copeland, Kemeny 등)으로 집계하여 최종 클래스를 결정한다. 동일 정확도·독립 가정 하에서의 정확도 폐쇄식, Condorcet Jury Theorem과의 연계, 그리고 정확도가 서로 다르고 종속적인 경우에 대한 확률 모델을 이론적으로 제시하고, 다양한 공개 데이터셋에서 XGBoost·Random Forest 등 최신 앙상블과 비교 실험을 수행한다. 실험 결과 VORACE가 경쟁력 있는 성능을 보이며, 특히 모델 선택과 파라미터 탐색 비용을 크게 절감함을 확인한다.
상세 분석
VORACE는 “Voting with Random Classifiers”의 약자로, 무작위로 생성된 n개의 기본 분류기(Decision Tree, Neural Network, SVM 등)를 동일한 학습 데이터에 학습시킨 뒤, 각 분류기가 출력하는 클래스별 확률 벡터를 내림차순으로 정렬하여 순위(rank) 형태로 변환한다. 이러한 순위 프로파일을 전통적인 사회 선택 이론의 투표 규칙에 입력함으로써, 각 클래스에 점수를 부여하고 가장 높은 점수를 받은 클래스를 최종 예측값으로 선택한다. 논문은 네 가지 대표 투표 규칙을 사용한다.
- Plurality: 각 분류기가 가장 높은 확률을 가진 클래스를 1표로 부여한다. 다수결 원칙과 동일하며, 이진 분류에서는 모든 규칙이 동일하게 동작한다.
- Borda: m개의 클래스에 대해 i번째 순위에 놓인 클래스는 m‑i 점을 얻는다. 순위 전체 정보를 활용하므로, 확률 차이가 작을 때도 미세한 차이를 반영한다.
- Copeland: 모든 클래스 쌍에 대해 어느 쪽이 더 많은 표를 얻는지 비교하고, 승리 횟수가 가장 많은 클래스를 선택한다. 쌍별 비교를 통해 강건한 순위를 도출한다.
- Kemeny: 전체 투표 프로파일과 가장 높은 일치도를 보이는 순위를 찾는 최적화 문제이며, NP‑hard이지만 근사 알고리즘을 사용한다.
이론적 분석에서는 먼저 동일 정확도와 독립성을 가정한 경우를 다룬다. 각 분류기의 정확도를 p라 하면, Plurality 투표에서 올바른 클래스가 다수표를 얻을 확률은 이항분포의 누적분포함수로 표현될 수 있다. 논문은 이를 폐쇄식으로 정리하여, n이 커질수록 정확도가 0.5를 초과하면 전체 정확도가 1에 수렴함을 보여준다(Condorcet Jury Theorem과 동일한 결과).
다음으로 정확도가 서로 다른 경우와 분류기 간 종속성을 고려한다. 각 분류기의 정확도를 p_i라 하고, 상관계수 ρ_ij를 도입해 공동분포를 다변량 정규근사로 모델링한다. 이를 통해 투표 결과의 기대값과 분산을 구하고, 일반적인 경우에도 다수표가 올바른 클래스를 선택할 확률을 근사식으로 제시한다. 특히, 종속성이 양의 상관을 가질 때는 독립 가정보다 정확도가 감소하지만, 충분히 많은 분류기를 포함하면 여전히 성능 향상이 가능함을 증명한다.
실험에서는 12개의 공개 데이터셋(이미지, 텍스트, 바이오메디컬 등)을 사용했으며, 각 데이터셋마다 n=50, 100, 200개의 무작위 분류기를 생성했다. 베이스라인으로는 XGBoost, Random Forest, Gradient Boosting, 그리고 기존 Bagging/Boosting 기반 앙상블을 적용하였다. 결과는 다음과 같다. (1) Plurality와 Borda가 대부분의 데이터셋에서 가장 높은 정확도를 기록했으며, Copeland과 Kemeny도 특정 클래스 불균형 상황에서 유리했다. (2) VORACE는 하이퍼파라미터 탐색 없이도 XGBoost와 비슷하거나 약간 낮은 수준이지만, 학습 시간과 메모리 사용량이 크게 절감되었다. (3) 정확도가 낮은 기본 분류기(예: 얕은 결정 트리)만을 사용해도 충분히 좋은 성능을 얻을 수 있었으며, 이는 “다수의 약한 학습기”가 강한 학습기로 변환되는 전통적인 Boosting 이론과 일맥상통한다.
마지막으로 논문은 투표 규칙이 제공하는 공정성(Fairness), 비동형성(Non‑dictatorship), 단조성(Monotonicity) 등 사회 선택 이론의 속성을 앙상블 설계에 활용할 가능성을 제시한다. 예를 들어, 특정 소수 클래스에 대한 가중치를 조정하거나, 투표 규칙 자체를 데이터 특성에 맞게 선택함으로써 편향을 완화할 수 있다. 이러한 관점은 기존 머신러닝 앙상블에서는 거의 다루어지지 않았던 새로운 연구 방향을 열어준다.
댓글 및 학술 토론
Loading comments...
의견 남기기