대규모 데이터 학습을 위한 COMET 단일패스 맵리듀스와 게우시안 지연평가
초록
COMET은 단일 MapReduce 단계로 각 데이터 블록에서 IVoting 기반 랜덤 포레스트를 학습하고, 이를 하나의 거대 앙상블로 결합한다. 게우시안 기반 지연 앙상블 평가(GLEE)를 도입해 필요 시에만 충분한 수의 트리를 조회함으로써 예측 비용을 수십 배 이상 절감한다. 실험 결과 5 GB와 50 GB 데이터셋에서 전체 데이터를 활용한 모델이 부분 샘플링 모델보다 정확도가 높으며, 학습 시간도 크게 단축됨을 보였다.
상세 분석
본 논문은 대규모 데이터 환경에서 전통적인 배깅 기반 랜덤 포레스트가 갖는 두 가지 한계를 극복한다. 첫째, 데이터가 메모리 한계를 초과할 경우 전체 데이터를 한 번에 처리할 수 없으므로, 데이터를 무작위 블록으로 분할하고 각 블록을 독립적인 Map 작업에 할당한다. 각 Mapper는 로컬 데이터에 대해 IVoting(Random Forest) 알고리즘을 수행한다. IVoting은 기존 bagging과 달리 오류가 높은 샘플에 더 높은 선택 확률을 부여함으로써, 어려운 사례에 집중하는 ‘importance‑sampled voting’을 구현한다. 이 과정에서 각 트리는 동일한 가중치를 갖고, 따라서 서로 다른 Mapper에서 생성된 트리들을 단순히 집합으로 병합해도 일관된 투표 메커니즘을 유지한다. 이는 Boosting과 달리 가중치 조정이 필요 없으므로, 분산 환경에서 모델 병합이 매우 간단해진다.
둘째, 거대한 앙상블(수천~수만 개의 트리)으로 인한 예측 비용을 최소화하기 위해 GLEE(Gaussian Lazy Ensemble Evaluation)를 제안한다. GLEE는 현재까지 수집된 투표를 이항(또는 다항) 분포의 평균으로 보고, 중앙극한정리를 이용해 정규분포 근사를 수행한다. 관측된 평균 ˆp와 표준오차를 이용해 (1‑α) 신뢰구간을 계산하고, 이 구간이 0.5를 포함하지 않을 경우 남은 트리들의 투표가 최종 결과를 바꿀 확률이 α 이하라고 판단해 조기 종료한다. 또한, 유한 모집단 보정(FPC) ρ를 적용해 전체 트리 수가 제한된 상황에서도 정확한 신뢰구간을 제공한다. 실험에서는 α=10⁻³ 수준에서 최소 30개의 트리만 평가해도 전체 앙상블과 동일한 정확도를 99.9% 이상 유지함을 확인했다.
알고리즘 복잡도 측면에서 GLEE는 매 투표 단계마다 O(1) 연산만 필요하므로, 기존 베이지안 기반 MLEE가 갖는 O(m²) 혹은 다항식 복잡도보다 훨씬 효율적이다. 또한, 다중 클래스 상황에서도 일방향 검정(one‑sided test)으로 변형이 가능해 확장성이 높다.
실험 설계는 두 개의 공개 데이터셋(압축 후 5 GB, 50 GB)에서 COMET을 적용하고, 동일한 하드웨어 환경에서 (1) 전체 데이터를 사용한 COMET, (2) 동일한 하드웨어에서 전체 데이터를 한 번에 처리할 수 없는 경우 샘플링된 10% 데이터만 사용한 전통적인 단일 머신 Random Forest, (3) 동일 데이터에 대해 bagging 기반 Random Forest를 비교하였다. 결과는 (1)이 가장 높은 정확도를 보였으며, 학습 시간도 23배 가량 단축되었다. 특히 IVoting이 bagging보다 1.52% 높은 정확도를 제공함을 확인했다.
이 논문은 데이터 파티셔닝, IVoting 기반 샘플링, 그리고 정규분포 기반 지연 평가라는 세 가지 핵심 요소를 결합함으로써, “한 번의 MapReduce 실행만으로 수십억 건의 레코드와 수천 차원의 피처를 학습하고, 실시간 예측 단계에서도 비용을 최소화한다”는 목표를 실현한다. 이러한 설계는 클라우드 환경에서 비용 효율적인 대규모 머신러닝 파이프라인 구축에 직접적인 가치를 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기