트리 앙상블을 위한 최적 반사실 지도와 빠른 검색
초록
본 논문은 트리 기반 앙상블 모델의 예측 영역을 축에 정렬된 하이퍼직사각형으로 압축하고, 목표 라벨을 가진 가장 가까운 영역을 찾는 “반사실 지도(counterfactual map)”를 정의한다. 전처리 단계에서 하이퍼직사각형 집합을 추출하고 KD‑트리로 색인화한 뒤, 질의 시점에 브랜치‑앤‑바운드 탐색을 통해 전역 최적 반사실을 밀리초 수준의 시간에 제공한다. 실험 결과는 기존 혼합정수계획법 대비 수십 배 빠른 응답 속도와 최적성 보장을 확인한다.
상세 분석
이 논문은 트리 앙상블 모델이 입력 공간을 축에 평행한 하이퍼직사각형으로 분할한다는 사실을 핵심 전제로 삼는다. 각 직사각형은 고정된 클래스 라벨을 갖고, 따라서 주어진 입력 x와 목표 라벨 y′ 사이의 최적 반사실은 x를 해당 라벨을 가진 가장 가까운 직사각형 H⋆에 투사(projection)하는 것과 동등하다. 기존 연구는 개별 입력에 대해 휴리스틱 탐색이나 혼합정수계획(MIP)으로 최적화를 수행했지만, 전자는 최적성을 보장하지 못하고 후자는 실시간 응답에 부적합한 계산 비용을 요구한다.
논문은 이러한 한계를 극복하기 위해 두 단계의 파이프라인을 제안한다. 첫 번째 단계는 “born‑again tree” 기법을 활용해 트리 앙상블을 동일한 결정 함수를 갖는 최소(또는 준최소) 개수의 하이퍼직사각형 집합 H로 변환한다. 이 과정에서 Vidal & Schiffer(2020)의 휴리스틱을 채택해 전처리 비용을 제한한다. 두 번째 단계에서는 목표 라벨별로 H_y′ 를 별도의 volumetric KD‑tree에 색인한다. KD‑트리 노드마다 해당 서브트리의 모든 직사각형을 포함하는 경계 박스 B(v)를 저장하고, L_p 거리(1 ≤ p ≤ ∞) 기준 하한값을 계산한다.
질의 단계에서는 우선순위 큐에 루트 노드를 삽입하고, 현재 최적 거리 d⋆ 보다 큰 하한값을 가진 서브트리는 즉시 가지치기한다. 리프 노드에 도달하면 실제 직사각형과의 거리 d_p(x, H)를 계산해 d⋆를 갱신한다. 이 과정은 “branch‑and‑bound” 방식으로, 모든 미탐색 영역에 대한 하한을 유지함으로써 최적해를 절대로 놓치지 않는다. 정리 3.1은 이 알고리즘이 전역 최적 반사실을 반환함을 수학적으로 증명한다.
핵심 기술적 기여는 다음과 같다. 첫째, 트리 앙상블을 하이퍼직사각형 파티션으로 압축함으로써 반사실 생성 문제를 “nearest‑region search”라는 전통적인 기하학 문제로 변환한다. 둘째, KD‑트리를 이용한 색인과 하한값 기반 가지치기로 평균 서브선형 탐색 시간을 달성한다. 셋째, L_1, L_2, L_∞ 등 다양한 거리 척도에 대해 동일한 프레임워크를 적용할 수 있어 실무에서 비용 가중치나 행동 가능성 제약을 손쉽게 반영한다. 마지막으로, 전처리 비용은 모델당 한 번만 발생하고, 이후 수천 건의 질의에 대해 밀리초 수준의 응답 시간을 제공한다는 점에서 인터랙티브한 설명 시스템에 적합하다.
실험에서는 4개의 고위험 도메인 데이터셋(신용점수, 재범예측, 유방암, 당뇨)과 다양한 깊이·트리 수를 가진 랜덤 포레스트를 대상으로 비교한다. 정확한 반사실을 제공하는 기존 MIP 기반 방법과, 최적성을 보장하지 않는 최신 휴리스틱을 모두 포함한 6개 베이스라인과 비교했을 때, 제안 방법은 평균 질의 시간에서 10‑100배 가량 빠르면서도 동일한 최적 거리(즉, 최소 변경량)를 유지한다. 또한, 전처리 단계에서 생성된 하이퍼직사각형 수는 이론적 최악 경우(지수 성장)보다 훨씬 적으며, 메모리 사용량도 실용적인 수준에 머문다.
이러한 결과는 “반사실 지도”가 전역 최적성을 보장하면서도 실시간 인터랙션을 가능하게 하는 새로운 패러다임임을 입증한다. 특히 규제 환경에서 설명 가능성과 비용 효율성을 동시에 만족시켜야 하는 상황에 유용하게 적용될 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기