랜덤 포레스트 회귀에서 예측변수 타깃팅

초록

본 논문은 고차원·희소 데이터에서 랜덤 포레스트 회귀의 성능을 높이기 위해 사전 차원축소(타깃팅) 과정을 도입한다. 타깃팅은 강한 예측변수를 미리 선택함으로써 트리 분할 확률을 조절하고, 개별 트리의 강도를 향상시킨다. 시뮬레이션과 거시경제·금융 실증을 통해, 전체 변수 중 10~~30% 정도를 선택하는 중간 수준의 타깃팅이 편향‑분산 균형을 최적화해 예측 정확도를 12~~13%까지 개선함을 확인한다.

상세 요약

이 연구는 랜덤 포레스트(RF)가 변수 샘플링을 통해 다변량 데이터를 효율적으로 학습하지만, 변수 수가 매우 많고 실제 신호가 희소한 상황에서는 약한 예측변수가 과도하게 선택돼 모델의 일반화 능력이 저하된다는 점을 지적한다. 이를 해결하기 위해 ‘타깃팅(targeting)’이라는 사전 차원축소 단계를 제안한다. 타깃팅은 기존 변수 선택 방법(예: 변수 중요도, LASSO, 상관계수 등)을 활용해 강한 예측변수 집합을 미리 추출하고, 이후 RF 학습 시 이 집합 내에서만 분할 후보를 고려하도록 제한한다. 핵심 이론적 기여는 두 가지이다. 첫째, 타깃팅이 트리 분할 과정에서 강한 변수에 대한 선택 확률을 어떻게 증가시키는지를 확률론적 프레임워크로 증명한다. 이는 기존 RF가 무작위 변수 샘플링에 의존해 약한 변수도 일정 확률로 선택되는 현상을 보완한다는 의미다. 둘째, 개별 트리의 ‘strength(강도)’를 정량화하여, 타깃팅이 트리의 예측력(예측 오차 감소)과 직접적인 연관이 있음을 보여준다. 시뮬레이션에서는 다양한 샘플 크기와 신호 대 잡음비(SNR) 하에서 타깃 비율을 5%부터 50%까지 변화시켰으며, 중간 수준(10~30%)에서 가장 큰 정확도 향상이 관찰되었다.

실증 부분에서는 미국 거시경제 지표와 금융 시장 데이터를 사용해 4분기·연간 예측 과제를 수행한다. 타깃된 RF는 특히 경기 침체기와 확장기 모두에서 장기 예측(12개월 이상) 시 오차가 크게 감소했으며, 이는 강한 변수(예: 실업률, 금리, 인플레이션 기대치 등)가 경기 사이클을 포착하는 데 핵심적임을 시사한다. 다만, 타깃 비율이 과도하게 높아지면 트리 간 상관관계가 증가해 편향이 커지는 ‘편향‑분산 트레이드오프’가 발생한다. 따라서 최적 타깃 비율은 데이터 특성에 따라 달라질 수 있지만, 저자들은 10~30%가 대부분의 상황에서 균형을 맞춘다고 결론짓는다.

이 논문은 기존 RF 연구에서 간과되던 ‘사전 변수 선택’과 ‘무작위성’ 간의 상호작용을 체계적으로 분석하고, 실용적인 가이드라인(예: 변수 중요도 기반 상위 20% 선택)을 제공한다는 점에서 학술적·실무적 의의가 크다. 또한, 타깃팅이 트리의 강도를 높여 개별 트리의 예측력을 강화하면서도 전체 포레스트의 다양성을 유지하도록 설계된 점은 향후 고차원 시계열·패널 데이터 분석에 유용한 설계 원칙으로 활용될 수 있다.

초록

상세 요약

📜 논문 원문 (영문)