진화 알고리즘 기반 의사결정 트리와 앙상블 구축

본 논문은 기존 의사결정 트리 학습 방법이 갖는 탐욕적 분할의 한계를 극복하고자, 트리를 실수값 벡터로 인코딩한 뒤 차등 진화(Differential Evolution, DE)와 진화 전략(Evolution Strategies, ES)이라는 두 가지 진화 알고리즘을 적용하는 새로운 프레임워크를 제안한다. 첫 번째 핵심 기여는 트리 구조를 고정 길이 실수 벡터로 변환하는 방법이다. 각 노드는 두 개의 파라미터(특성 인덱스와 임계값)로 정의되며, 전체 트리를 순차적으로 구성하기 위해 벡터를 두 개의 동일 길이 구간으로 나눈다. 첫 구간의 최소값 위치를 찾아 특성 인덱스를 복원하고, 해당 위치의 두 번째 구간 값이 임계값이 된다. 이렇게 얻은 노드 정보를 차례대로 연결해 트리의 내부 구조를 만들고, 학습 데이터에 기반해 잎 노드를 다수결 규칙으로 채워 완전한 트리를 완성한다. 두 번째 기여는 이 인코딩을 활용한 두 진화 알고리즘의 적용이다. DE는 세 개의 무작위 개체를 선형 결합해 변이 벡터를 만들고, 교차 확률에 따라 원래 개체와 섞어 시험 해를 생성한다. 1대1 토너먼트 선택을 통해 더 나은 적합도를 가진 개체가 다음 세대로 전달된다. ES는 하나의 중심 개체를 기준으로 정규분포에서 샘플링한 오프셋을 여러 개 생성하고, 각 오프셋에 대한 적합도 평가값을 가중합해 근사 그라디언트를 구한다. 이 그라디언트 방향으로 일정 스텝만큼 이동함으로써 새로운 후보 해를 만든다. 두 방법 모두 실수 공간에서 전역 탐색을 수행하므로, 전통적인 CART와 같은 탐욕적 방법이 놓치기 쉬운 복합적인 특성 상호작용을 포착한다. 세 번째 기여는 트리 앙상블 구축에 대한 두 가지 전략이다. 첫 번째는 기존 랜덤 포레스트와 AdaBoost의 구조를 그대로 유지하되, 각 기본 학습기를 DE 또는 ES로 교체한 EvoRF와 EvoBoost이다. 이 경우 개별 트리 학습 과정만 진화 알고리즘으로 대체되므로, 기존 앙상블 프레임워크와 호환성이 높다. 두 번째는 전체 앙상블을 하나의 거대한 실수 벡터로 표현하고, 이를 한 번에 최적화하는 EvoEnsemble이다. 이 방식은 개별 트리 간의 상호 의존성을 직접 고려할 수 있어, 전체 모델의 예측 성능을 극대화한다는 장점이 있다. 실험에서는 UCI 저장소의 20여 개 데이터셋을 사용해 두 단계의 평가를 수행했다. 첫 번째 단계에서는 단일 트리 학습 성능을 비교했으며, DE와 ES 모두 기존 CART보다 평균 1~2% 높은 정확도를 기록했다. 특히 ES는 대부분의 데이터셋에서 가장 큰 향상을 보였으며, 이는 ES가 탐색 공간을 보다 효율적으로 탐색함을 의미한다. 두 번째 단계에서는 앙상블 성능을 비교했으며, EvoRF와 EvoBoost은 기존 랜덤 포레스트와 AdaBoost에 비해 소폭 개선을 보였지만, EvoEnsemble은 대부분의 이진 분류 데이터셋에서 2~4% 정도의 정확도 상승을 달성했다. 하지만 진화 기반 학습은 매 세대마다 전체 트리를 재구성하고 적합도를 평가해야 하므로, 실행 시간은 전통적인 알고리즘에 비해 현저히 오래 걸렸다. 논문은 이를 해결하기 위한 방안으로 (1) 병렬화 및 GPU 활용, (2) 초기 개체를 기존 CART 결과로 설정해 탐색 초기화를 가속화, (3) 그라디언트 부스팅과 결합해 단계적 학습을 도입하는 것을 제시한다. 결론적으로, 실수 벡터 인코딩과 전역 최적화 진화 알고리즘을 결합한 접근법은 의사결정 트리와 그 앙상블의 예측 성능을 향상시킬 수 있음을 실험적으로 입증하였다. 다만 계산 비용이 크게 증가하므로, 실용적인 적용을 위해서는 효율적인 구현 및 하드웨어 가속 기술이 필수적이다.

진화 알고리즘 기반 의사결정 트리와 앙상블 구축

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기