강건 X 러너: 불균형과 극단값을 넘는 새로운 교차대입법
초록
본 논문은 산업 현장에서 흔히 마주치는 치료군과 대조군의 극심한 불균형 및 결과 변수의 헤비테일 특성을 동시에 해결하기 위해 기존 X‑Learner의 약점을 보완한 Robust X‑Learner(RX‑Learner)를 제안한다. MSE 기반 학습이 야기하는 “아웃라이어 스미어링” 현상을 γ‑다이버전스 기반의 레드센딩 Welsch 손실로 대체하고, MM 원리를 이용한 Proxy Hessian 기법으로 비볼록 최적화를 안정화한다. Criteo Uplift 반합성 데이터 실험에서 PEHE를 98.6% 감소시켜 핵심(Core) 인구와 변동성 높은 주변(Periphery) 인구를 효과적으로 분리한다.
상세 분석
본 논문은 두 가지 실무적 병목 현상을 정량적으로 정의하고, 기존 메타‑러너들의 구조적 한계를 수학적으로 증명한다. 첫 번째 병목은 치료군(N₁)이 전체 표본에 비해 현저히 적은 경우이며, 이때 전통적인 T‑Learner는 작은 군집의 고분산 추정으로 정보 손실이 발생한다. X‑Learner는 교차대입(cross‑imputation) 전략을 통해 큰 군집의 정보를 활용하지만, MSE 최소화에 의존하는 베이스 모델이 극단값(‘whale’)에 과도하게 민감해지는 점을 간과한다. 저자들은 이를 “아웃라이어 스미어링(Outlier Smearing)”이라 명명하고, 치료군에 존재하는 단일 극단 관측치가 베이스 모델 ˆµ₁(x)를 편향시켜, 이후 대조군에 대한 가상 결과 ˜D₀ᵢ = ˆµ₁(Xᵢ) – Yᵢ에 동일한 편향 δ가 전파되는 과정을 수식(15)~(19)로 명확히 제시한다. 이 편향은 대조군이 충분히 크고 깨끗하더라도 최종 CA‑TE 추정치 τ̂(x)에 체계적인 오차를 남긴다.
이를 해결하기 위해 논문은 γ‑다이버전스 손실을 도입한다. γ‑다이버전스는 모델 밀도와 데이터 밀도의 거듭제곱 차이를 최소화함으로써, 핵심(Core) 분포에 대한 가우시안 가정을 유지하면서 주변(Periphery) 분포의 영향을 자동으로 억제한다. γ‑다이버전스를 가우시안 코어에 적용하면 Welsch 손실 L(r) = 1 – exp(–γ·r²/(2σ²))와 동등함을 보이며, 이는 레드센딩(redescending) 영향 함수 ψ(r) = dL/dr가 |r|→∞일 때 0으로 수렴함을 의미한다. 따라서 ‘whale’에 해당하는 큰 잔차는 학습 과정에서 실질적인 가중치를 받지 못하고, 핵심 데이터만을 중심으로 모델이 수렴한다.
하지만 Welsch 손실은 비볼록성을 갖기 때문에 기존 Gradient Boosting Machine(GBM) 프레임워크에 바로 적용하면 수렴 불안정성이 발생한다. 저자들은 Majorization‑Minimization(MM) 이론에 기반한 Proxy Hessian 전략을 설계한다. 구체적으로, 현재 모델 파라미터 θᵗ에 대해 손실 L(θ) ≤ Q(θ|θᵗ) 형태의 상한 함수를 구성하고, Q를 2차 근사(Quadratic surrogate)로 만든 뒤 Hessian을 대체한다. 이 과정은 매 반복마다 손실이 단조 감소하도록 보장하며, 기존 XGBoost의 트리 구조와 호환된다.
RX‑Learner는 세 단계로 구성된다. 1) 강건 베이스 학습: 치료군·대조군 각각에 대해 γ‑다이버전스 기반 Welsch 손실을 적용한 GBM을 학습한다. 2) 강건 교차대입: 편향이 억제된 ˆµ₁, ˆµ₀을 사용해 가상 결과 ˜D₁, ˜D₀를 생성한다. 3) 가중 평균 집계: 역분산 가중치 대신, 각 군집의 추정 분산을 로버스트하게 추정한 후 가중치를 재조정한다. 이때 가중치 함수 g(x)도 γ‑다이버전스 기반 잔차 분산 추정값을 활용해, 주변 영역에서 과도한 가중이 부여되는 것을 방지한다.
실험에서는 Criteo Uplift v2.1 데이터를 반합성(semi‑synthetic) 방식으로 변형해, 치료군 비율을 1% 수준으로 낮추고, 결과 변수에 Pareto(α=1.5) 꼬리를 추가했다. 평가 지표는 PEHE와 Qini coefficient이며, RX‑Learner는 기존 X‑Learner 대비 PEHE를 98.6% 감소시켰다. 특히 Core 인구(상위 80% 데이터)에서의 오차는 거의 0에 수렴했으며, Periphery(상위 20% 고액 사용자)에서는 여전히 높은 변동성을 보였지만, 전체 비즈니스 의사결정에 미치는 영향은 크게 감소했다.
이러한 결과는 두 가지 중요한 시사점을 제공한다. 첫째, 불균형 상황에서도 교차대입 메커니즘을 유지하면서, 베이스 모델 자체를 강건하게 만들면 “스미어링”을 근본적으로 차단할 수 있다. 둘째, γ‑다이버전스와 MM 기반 최적화는 기존 GBM 인프라를 크게 변경하지 않으면서도 헤비테일 데이터에 대한 내성을 제공한다. 따라서 광고 기술, 디지털 마케팅, 의료 비용 분석 등 대규모 비정형 데이터에서 HTE 추정이 요구되는 실무 환경에 바로 적용 가능하다.
댓글 및 학술 토론
Loading comments...
의견 남기기