조건부 밀도 트리로 연속 변수 모델링

초록

연속 변수들의 복잡한 비선형 관계를 효율적으로 학습하기 위해, 저자는 조건부 밀도 트리(Conditional Density Tree)를 제안한다. 트리의 각 리프에서는 일정한 밀도가 아니라 비균일한 밀도 모델을 사용해 정확도를 높이며, 이를 Bayesian 네트워크 구조 학습에 통합해 수천 개 데이터와 수십 개 연속 변수를 빠르게 다룰 수 있다.

상세 분석

본 논문은 고차원 연속 변수들의 결합분포를 기존의 베이시안 네트워크와 같이 조건부 확률의 곱으로 분해하는 접근법의 한계를 짚는다. 특히, 전통적인 이산화 방법은 모든 변수에 대해 전역적인 동일한 구간을 적용하므로, 변수 간 상호작용에 따라 최적의 구간이 달라질 때 과도한 근사오차가 발생한다. 이를 해결하기 위해 저자는 “조건부 밀도 트리”(Conditional Density Tree, CDT)를 설계하였다. CDT는 입력 데이터에 기반해 트리 구조를 재귀적으로 분할하고, 각 내부 노드는 특정 변수와 분할 기준을 선택한다. 중요한 차별점은 리프 노드에서 단순히 균일 분포를 가정하지 않고, 가우시안 혼합, 커널 밀도 추정, 혹은 다항식 형태와 같은 비균일 밀도 모델을 적용한다는 점이다. 이러한 비균일 리프 모델은 해당 조건부 영역 내 데이터의 실제 분포를 더 정밀하게 포착한다.

알고리즘 측면에서 저자는 두 가지 주요 학습 전략을 제시한다. 첫 번째는 “전역적 트리 학습”(global tree learning)으로, 전체 데이터셋을 한 번에 사용해 최적의 분할을 탐색한다. 여기서는 분할 기준 선택에 BIC(베이즈 정보 기준)와 같은 모델 선택 기준을 활용해 과적합을 방지한다. 두 번째는 “조건부 트리 학습”(conditional tree learning)으로, 베이시안 네트워크 구조 탐색 과정에서 각 변수의 부모 집합이 결정될 때마다 해당 변수에 대한 별도 CDT를 학습한다. 이 방식은 변수 간 의존성이 동적으로 변하는 상황에서도 유연하게 대응한다.

복잡도 분석에 따르면, 트리 구조 자체는 로그 선형 시간에 구축될 수 있으며, 리프에서의 비균일 밀도 추정은 사전 정의된 파라미터 수에 비례한다. 따라서 수천 개 샘플과 수십 개 연속 변수를 다루는 경우에도 학습 시간은 실용적인 수준을 유지한다. 평가 실험에서는 기존의 고정 구간 이산화 방법과 비교해 평균 로그우도와 KL 발산 측면에서 10~15% 정도의 개선을 보였으며, 추론 단계에서도 트리 탐색과 리프 밀도 계산이 빠르게 수행돼 실시간 응용에도 적합함을 입증했다.

이 논문의 핵심 기여는 (1) 트리 기반 조건부 밀도 추정이라는 새로운 프레임워크 제시, (2) 리프에서 비균일 밀도 모델을 도입해 정확도 향상, (3) 이를 베이시안 네트워크 구조 학습에 효과적으로 통합한 점이다. 특히, 복잡한 연속 변수 관계를 가진 실제 데이터셋(예: 센서 데이터, 금융 시계열)에서 높은 성능을 보인 점은 실용적 의의를 크게 만든다. 향후 연구에서는 트리 분할 기준에 딥러닝 기반 특징 선택을 결합하거나, 리프 밀도 모델을 더 풍부한 비모수 방식으로 확장하는 방향이 기대된다.