랜덤 포레스트 방법론 인사이트
본 논문은 랜덤 포레스트의 파라미터 선택, 변수 중요도 지표의 특성, 그리고 변수 선택 전략을 실험적으로 검증한다. 표준·고차원 데이터 모두에서 mtry와 ntree 설정이 성능에 미치는 영향을 분석하고, 변수 중요도(특히 permutation importance)의 안정성과 상관관계 영향을 조사한다. 마지막으로 변수 해석 목적과 예측 목적을 구분한 두 단계 변수 선택 절차를 제안한다.
저자: Robin Genuer (LM-Orsay), Jean-Michel Poggi (LM-Orsay), Christine Tuleau (JAD)
본 논문은 2008년 INRIA 연구보고서 번호 6729로 발표된 “Random Forests: some methodological insights”를 상세히 분석한다. 연구의 배경은 2001년 Breiman이 제안한 랜덤 포레스트가 분류·회귀 분야에서 널리 사용되고 있음에도 불구하고, 파라미터 설정, 변수 중요도 해석, 변수 선택 전략 등에 대한 체계적인 실험적 검증이 부족하다는 점이다. 저자들은 이를 보완하기 위해 표준 데이터(관측치가 변수보다 많음)와 고차원 데이터(관측치가 변수보다 현저히 적음) 두 종류를 선정하고, 각각에 대해 RF의 주요 파라미터(mtry, ntree, nodesize)와 변수 중요도 지표(permutation importance, Gini 감소)의 행동을 실험한다.
첫 번째 섹션에서는 RF 알고리즘의 기본 원리를 요약하고, CART와 bagging과의 차이점을 설명한다. 특히 mtry가 p(전체 변수 수)일 때는 무조건적인 bagging과 동일해진다는 점을 강조한다. 이어서 OOB(Out‑of‑Bag) 오류를 모델 평가와 변수 중요도 계산에 활용하는 이유를 제시한다. OOB 오류는 별도의 검증 세트를 만들 필요 없이 각 트리의 미사용 샘플을 이용해 편향이 적은 오류 추정치를 제공한다.
두 번째 섹션에서는 파라미터 튜닝 실험을 전개한다. 표준 회귀 데이터셋(BostonHousing, Ozone, Friedman 시뮬레이션)에서는 mtry를 1부터 p까지 변화시키며 ntree를 100, 500, 1000으로 설정한 결과, mtry=√p가 가장 낮은 OOB 오류를 보이며, 기본값인 p/3는 경우에 따라 비효율적임을 확인한다. 또한 ntree는 100~500 사이에서도 큰 차이가 없으며, 1000으로 늘려도 성능 향상이 미미함을 보여준다. 고차원 회귀 실험에서는 노이즈 변수를 다량 추가한 Friedman1 모델에 대해 p를 100~500까지 늘리면서 mtry를 1~p로 변화시켰다. 여기서 mtry가 작을수록 중요한 변수 신호가 희석되어 오류가 급증했으며, √p 수준에서 오류가 최소화되는 패턴이 재현되었다. 이는 고차원 상황에서도 충분히 많은 변수를 무작위로 선택해야 트리들이 유용한 분할을 찾을 수 있음을 의미한다.
세 번째 섹션은 변수 중요도에 초점을 맞춘다. Gini 감소 기반 중요도는 범주형 변수가 많은 경우 편향이 발생한다는 기존 연구를 인용하고, 본 논문에서는 permutation importance를 주된 지표로 채택한다. 실험 결과, permutation importance는 변수 스케일, 범주 수, 작은 샘플 변동에 대해 안정적이며, 상관관계가 높은 변수들 사이에서 과대평가 현상이 뚜렷이 나타나지는 않았다. 그러나 저자는 조건부 중요도(conditional importance)와 같은 보완 방법을 언급하며, 향후 연구 필요성을 제시한다.
네 번째 섹션에서는 변수 선택 두 가지 목표를 구분한다. (1) 해석 목적: 변수 중요도 점수를 임계값으로 구분해 중요한 변수 집합을 도출한다. (2) 예측 목적: 변수 중요도 순서대로 오름차순으로 변수를 하나씩 추가하면서 OOB 오류 감소를 모니터링한다. 이때 n≪p 상황에서는 먼저 변수 수를 p에 가깝게 늘려 표준 상황으로 전환한 뒤, 단계적 도입을 수행한다. 저자는 이 두 단계 절차가 기존의 filter(단순 순위)와 wrapper(예측 성능 기반) 방법보다 더 일관된 변수 선택과 높은 예측 정확도를 제공한다는 실험적 증거를 제시한다. 특히 고차원 분류 데이터(Leukemia, Colon, NCI 등)에서 제안된 절차가 5~10개의 변수만으로도 원래 전체 변수 사용 시와 비슷한 정확도를 달성함을 보여준다.
마지막으로 논문은 연구 결과를 요약하고, 향후 작업으로는 (i) 변수 중요도와 파라미터 튜닝의 상호작용을 더 정량화하는 방법, (ii) 조건부 중요도와 같은 고급 중요도 지표 도입, (iii) 대규모 데이터와 실시간 학습 환경에서의 RF 최적화 등을 제안한다. 전반적으로 이 연구는 랜덤 포레스트를 실무에 적용하려는 연구자와 실무자에게 파라미터 선택, 변수 중요도 해석, 변수 선택 전략에 대한 구체적이고 재현 가능한 지침을 제공한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기