조건밀도 추정의 새로운 패러다임, 파티션 트리와 포레스트
초록
파티션 트리는 연속형·범주형 변수를 모두 포괄하는 조건밀도 추정 방법으로, 데이터에 적응적인 공동공간 분할을 통해 조각별 상수 밀도를 학습한다. 로그손실을 직접 최소화하는 탐욕적 분할과, 일관성을 위한 탐색적 분할을 결합해 효율성과 이론적 보장을 동시에 제공한다. 파티션 포레스트는 이러한 트리를 앙상블해 예측 정확도와 확률적 성능을 크게 향상시킨다.
상세 분석
본 논문은 조건밀도 추정을 위한 트리 기반 프레임워크인 ‘파티션 트리’를 제안한다. 핵심 아이디어는 입력‑출력 공동공간 (Z = X \times Y) 을 데이터에 따라 적응적으로 분할하고, 각 셀 (A = A_X \times A_Y) 내에서 조건밀도 (f(x,y)) 를 (P_{XY}(A)/\bigl(P_X(A_X),\mu_Y(A_Y)\bigr)) 라는 상수값으로 근사한다는 점이다. 이는 Radon–Nikodym 파생을 이용한 측도론적 정의와 일치하며, 연속형·범주형 변수 모두를 동일한 수식으로 다룰 수 있다.
트리 성장 과정은 두 단계로 구성된다. 첫 번째는 ‘이득 기반’ 탐욕적 분할로, 각 후보 분할에 대해 경험적 로그‑손실 감소량 (G) (식 10)를 계산하고 가장 큰 이득을 제공하는 분할을 선택한다. 이때 분할은 (X) 좌표와 (Y) 좌표 모두에 적용될 수 있으며, (Y) 분할은 같은 (X) 영역 내에서 출력 히스토그램을 세분화한다는 직관적 의미를 가진다. 두 번째는 ‘탐색 기반’ 분할로, 이론적 일관성을 위해 리프 노드의 직경을 일정 비율 (\rho) 이하로 감소시키는 기하학적 분할을 일정 예산 (k_{N,e}) 만큼 수행한다. 이 혼합 전략은 기존 탐욕적 트리에서 발생할 수 있는 ‘분할 정체’ 현상을 방지하고, 섹션 3에서 제시한 (L_1(\nu)) 일관성 증명을 가능하게 한다.
계산 복잡도 측면에서, 연속형 변수에 대한 후보 임계값은 리프 내 샘플을 정렬한 뒤 전위합을 이용해 (O(n\log n)) 시간에 모두 평가한다. 범주형 변수는 (|\Sigma|) 개의 카테고리를 점수 순으로 정렬하고 전위 스캔함으로써 최적 부분집합 분할을 선형 시간에 찾는다. 따라서 전체 트리 구축은 (O(N d_Z \log N)) 정도이며, 메모리 사용도 각 리프에 대한 카운트와 정렬 인덱스만 유지하면 된다.
앙상블 확장인 ‘파티션 포레스트’는 여러 트리에서 얻은 조건밀도 추정값을 평균함으로써 편향‑분산 균형을 개선한다. 실험에서는 CART‑스타일 트리 대비 로그‑손실이 크게 감소했으며, 기존 확률적 트리(CADET, CDTree)와 Random Forest와 비교해 대부분의 데이터셋에서 우수한 성능을 보였다. 특히, 이질적(heteroscedastic) 노이즈와 중복 특성에 대한 강인성도 입증되었다.
요약하면, 파티션 트리는 (1) 연속·범주형 변수를 통합적으로 처리, (2) 조건밀도 추정을 직접 최적화하는 목표 함수, (3) 탐욕적·탐색적 분할을 결합한 효율적 학습 알고리즘, (4) 일관성을 보장하는 이론적 기반, (5) 포레스트 앙상블을 통한 실용적 성능 향상이라는 다섯 축을 동시에 만족한다는 점에서 기존 방법들을 뛰어넘는 새로운 조건밀도 추정 패러다임이라 할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기