차원 저주를 피하는 트리 기반 회귀기

초록

본 논문은 데이터의 내재 차원인 Assouad 차원에만 의존하는 수렴 속도를 보장하는 최초의 트리 기반 회귀 모델을 제안한다. 무작위 투영을 이용한 RPtree 분할 방식을 채택해 기존 k‑d 트리의 차원 저주 문제를 극복하고, 이론적 오류 경계와 실험적 성능을 입증한다.

상세 분석

이 연구는 고차원 데이터에서 회귀 문제를 해결할 때 흔히 마주치는 “차원 저주”(curse of dimensionality)를 완화하기 위해, 데이터의 실제 복잡도를 나타내는 Assouad 차원에 기반한 오류 분석을 수행한다. 핵심 아이디어는 RPtree(Random Projection tree)라는 간단한 무작위화 k‑d 트리 변형을 이용해 입력 공간을 재귀적으로 분할하는 것이다. 기존 k‑d 트리는 각 단계에서 축을 고정하고 절반씩 나누는 방식으로, 데이터가 고르게 퍼져 있지 않을 경우 분할 깊이가 데이터 차원에 비례해 급격히 증가한다. 반면 RPtree은 매 분할 단계마다 무작위 방향으로 투영한 뒤, 그 투영값을 기준으로 데이터를 두 그룹으로 나눈다. 이 과정은 데이터의 구조적 복잡도, 즉 Assouad 차원에 비례하는 깊이만을 요구한다는 것이 증명된다.

논문은 먼저 Assouad 차원의 정의와 그가 데이터 집합의 “내재 차원”을 정량화하는 방법을 소개한다. 이후 RPtree가 생성하는 셀(cell)의 지오메트리를 분석해, 각 셀의 직경(diameter)이 샘플 수 n에 대해 O(n^{-1/d̂})(d̂는 Assouad 차원)로 감소함을 보인다. 이와 결합해 Lipschitz 연속성을 가정한 목표 함수 f에 대해, 셀 평균값을 추정값으로 사용하는 회귀기의 편향(bias)은 셀 직경에 비례하고, 분산(variance)은 셀당 샘플 수의 역수에 비례한다. 최적의 트리 깊이를 선택하면 전체 평균 제곱 오차(MSE)는 O(n^{-2/(2+d̂)})라는 수렴 속도를 얻는다. 이는 기존 k‑d 트리 기반 회귀기의 O(n^{-2/(2+d)})(d는 명시적 차원)와 비교해, 데이터가 실제로 저차원 구조를 가질 때 훨씬 빠른 수렴을 의미한다.

또한 논문은 RPtree의 구현 복잡도와 메모리 요구량이 O(n log n) 수준임을 보이며, 무작위 투영을 위한 간단한 선형 변환만 필요하므로 실제 대규모 데이터에서도 효율적으로 동작한다. 실험 섹션에서는 합성 데이터와 실제 이미지·텍스트 데이터셋을 사용해, RPtree 회귀기가 k‑d 트리, 랜덤 포레스트, 커널 회귀 등과 비교해 동일한 샘플 수에서 더 낮은 MSE를 기록함을 보여준다. 특히 차원 저주가 두드러지는 고차원 이미지 특징 공간에서 그 우수성이 두드러진다.

이 논문의 주요 기여는 다음과 같다. 첫째, Assouad 차원에 기반한 오류 경계를 최초로 제시함으로써, 트리 기반 회귀기의 이론적 한계를 크게 확장했다. 둘째, RPtree라는 간단하면서도 강력한 분할 알고리즘을 도입해, 기존 복잡한 비선형 분할 기법 없이도 내재 차원에 적응하는 성능을 달성했다. 셋째, 이론적 분석과 실험을 일관되게 연결시켜, 실제 데이터에서도 차원 저주를 효과적으로 회피할 수 있음을 입증했다. 향후 연구에서는 RPtree를 다른 비지도 학습·클러스터링 작업에 확장하거나, 다중 출력 회귀·시계열 예측 등 복합 문제에 적용하는 방안을 모색할 수 있다.