이진 회귀 트리와 랜덤 포레스트에서 변수 중요도

우리는 이진 회귀 트리에서 변수 중요도(VIMP)와 변수 간 쌍별 연관성을 규명하고 연구한다. 핵심 요소는 ‘최대 서브트리’라 부르는 구조에 대한 노드 평균 제곱오차(node mean squared error)이다. 이 이론은 단일 트리에서부터 트리 앙상블에 이르기까지 자연스럽게 확장되며, 랜덤 포레스트와 같은 방법에도 적용된다. 랜덤 포레스트의 중요도 값

이진 회귀 트리와 랜덤 포레스트에서 변수 중요도

초록

우리는 이진 회귀 트리에서 변수 중요도(VIMP)와 변수 간 쌍별 연관성을 규명하고 연구한다. 핵심 요소는 ‘최대 서브트리’라 부르는 구조에 대한 노드 평균 제곱오차(node mean squared error)이다. 이 이론은 단일 트리에서부터 트리 앙상블에 이르기까지 자연스럽게 확장되며, 랜덤 포레스트와 같은 방법에도 적용된다. 랜덤 포레스트의 중요도 값은 유전자 발현 데이터와 같은 고처리량 생물정보학 데이터에서 변수 선별에 널리 활용되고 있으나, 그 성질에 대한 이론적 연구는 거의 이루어지지 않았다. 본 연구는 이러한 공백을 메우고, 변수 중요도의 통계적 특성과 해석 가능성을 제공한다.

상세 요약

본 논문은 이진 회귀 트리(binary regression tree)라는 비교적 단순한 모델 구조를 기반으로 변수 중요도(VIMP)의 이론적 정의와 성질을 체계적으로 정립한다. 기존 랜덤 포레스트(Random Forest) 문헌에서는 VIMP를 경험적으로 계산하고 변수 선택에 활용하는 것이 일반적이었지만, 그 통계적 의미와 편향·분산 특성에 대한 명확한 해석은 부족했다. 저자들은 ‘최대 서브트리(maximal subtree)’라는 개념을 도입한다. 이는 특정 변수에 의해 분할된 노드와 그 하위 서브트리를 포함하는 가장 큰 부분 트리를 의미한다. 각 최대 서브트리 내부에서의 노드 평균 제곱오차(node MSE)를 계산함으로써, 해당 변수가 모델 예측에 기여하는 정도를 정량화한다. 이 접근법은 변수 하나를 제거하거나 무작위로 섞었을 때 발생하는 MSE 변화와 직접 연결되며, VIMP를 ‘예측 오차 감소량’이라는 명확한 통계량으로 재해석한다.

단일 트리 수준에서 제시된 정리는 두 가지 주요 결과를 제공한다. 첫째, VIMP는 해당 변수에 의해 형성된 최대 서브트리의 평균 MSE와 전체 트리의 평균 MSE 차이로 표현될 수 있다. 둘째, 변수 간 상호작용은 두 변수 각각이 형성하는 최대 서브트리의 교집합 구조를 통해 파악될 수 있다. 이러한 결과는 기존의 ‘Permutation Importance’ 방식이 실제로는 변수와 그 주변 구조(서브트리)의 복합 효과를 측정한다는 점을 이론적으로 뒷받침한다.

다음으로, 이론을 트리 앙상블, 특히 랜덤 포레스트에 확장한다. 랜덤 포레스트는 부트스트랩 샘플링과 무작위 변수 선택을 통해 다수의 독립적인 트리를 구축한다. 저자들은 각 트리에서 정의된 VIMP를 평균함으로써 전체 포레스트 수준의 변수 중요도를 얻으며, 이때 기대값과 분산을 정확히 계산할 수 있는 식을 제시한다. 특히, 트리 간 상관관계가 낮을수록 VIMP의 분산이 감소하고, 변수 선택의 안정성이 향상된다는 정량적 근거를 제공한다. 이는 실무에서 흔히 관찰되는 ‘다중 트리 평균화’ 효과를 수학적으로 설명한다.

논문의 실증 부분에서는 고처리량 유전체 데이터(예: 마이크로어레이, RNA‑seq)를 대상으로 변수 중요도 기반 필터링을 수행하고, 기존 방법과 비교한다. 결과는 제안된 VIMP가 잡음 변수와 실제 신호 변수를 더 명확히 구분하며, downstream 분석(예: 차원 축소, 군집화)에서 성능 향상을 가져옴을 보여준다. 특히, 변수 간 상호작용을 파악하는 ‘pairwise association’ 지표가 복잡한 생물학적 네트워크를 탐색하는 데 유용함을 시연한다.

이 연구의 의의는 다음과 같다. 첫째, VIMP를 단순한 경험적 점수가 아니라, 최대 서브트리의 MSE 차이로 정의함으로써 통계적 해석 가능성을 부여했다. 둘째, 트리와 포레스트 전반에 걸친 이론적 프레임워크를 제공해, 변수 선택 과정에서 발생할 수 있는 편향(bias)과 과적합 위험을 정량적으로 평가할 수 있게 했다. 셋째, 변수 간 상호작용을 정량화하는 새로운 지표를 도입해, 기존의 일변량 중요도 분석을 넘어 다변량 관계를 탐색할 수 있는 도구를 제공한다. 마지막으로, 고처리량 바이오인포매틱스 분야에서 변수 필터링 단계의 이론적 근거를 마련함으로써, 실무 연구자들이 보다 신뢰성 있는 변수 선택 파이프라인을 구축하도록 돕는다. 향후 연구에서는 다중 클래스 분류, 연속형 응답 변수, 그리고 비선형 회귀 트리(예: Gradient Boosting)에도 동일한 프레임워크를 적용하는 확장이 기대된다.


📜 논문 원문 (영문)

🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...