이중강건 추정법의 실용적 재조명: GBM 기반 가중치와 상호작용 효과 검증
Ridgeway와 McCaffrey는 기존 논문에서 제시된 이중강건(DR) 추정법이 OLS보다 열등하다는 결론에 의문을 제기한다. 로지스틱 회귀 대신 일반화 부스팅 모델(GBM)과 로빗 회귀를 이용해 propensity score를 추정하고, 결과 모형에 중요한 상호작용 항을 추가한 시뮬레이션을 수행하였다. 결과는 GBM 기반 가중치와 DR 추정법이 OLS와 동등하거나, 특히 모형이 상호작용을 누락했을 때 현저히 우수함을 보여준다.
저자: Greg Ridgeway, Daniel F. McCaffrey
Ridgeway와 McCaffrey는 Kang과 Schafer(2007)의 논문에 대한 비판적 검토를 통해, 이중강건( double robust, DR ) 추정법이 실제 적용에서 OLS보다 열등하다는 결론에 의문을 제기한다. 원 논문에서는 로지스틱 회귀를 이용한 propensity score 추정과, 결과 모형에 포함된 변수 선택이 DR 추정법의 성능을 제한한다고 주장하였다. 저자들은 두 가지 주요 가설을 세운다. 첫째, 로지스틱 회귀가 propensity score를 과도하게 0·1에 몰아 가중치의 분산을 키우는 것이 원인일 수 있다. 둘째, 결과 모형에 중요한 상호작용 항이 누락되면 DR 추정기가 기대 이하의 성능을 보일 수 있다.
이를 검증하기 위해 저자들은 원 논문의 시뮬레이션 설계를 그대로 재현하면서, 다음과 같은 변형을 가한다. 1) propensity score 추정에 로지스틱 회귀 외에 일반화 부스팅 모델(GBM)과 로빗 회귀(robust probit)를 도입한다. GBM은 다수의 약한 학습기(트리)를 선형 결합해 비선형 관계를 포착하고, shrinkage와 트리 개수 조절을 통해 과적합을 방지한다. 로빗 회귀는 로지스틱보다 꼬리 부분에서 더 완만한 S-곡선을 제공한다. 2) 결과 모형에 중요한 상호작용 항 Z₁·Z₂를 인위적으로 추가한다. 이는 실제 관찰 연구에서 종종 간과되는 변수이며, 모형 미지정 위험을 재현한다.
시뮬레이션은 1,000개의 데이터셋을 생성하고, 각 데이터셋에 대해 OLS, IPW‑POP, IPW‑NR, 그리고 DR(BC와 WLS) 추정기를 적용한다. 추정기별 성능은 OLS를 기준으로 한 RMSE 비율로 보고한다.
표 1(IPW 추정기)에서는 로지스틱 기반 가중치를 사용할 경우 X 변수를 포함한 가중치가 RMSE 비율 6~10배에 달한다. 이는 로지스틱 회귀가 극단적인 propensity score를 산출해 가중치가 폭발적으로 커지는 현상을 반영한다. 반면, GBM 기반 가중치는 대부분 1.0~1.6 사이에 머물며, 로빗 회귀도 1.0~1.4 수준으로 개선된다. 특히 상호작용을 누락한 OLS가 큰 편향을 보이는 경우, GBM‑IPW는 30~50% 정도 RMSE를 감소시킨다.
표 2(DR 추정기)에서는 GBM 기반 가중치를 사용한 가중치 보정(BC)과 가중 최소제곱(WLS) 추정기가 OLS와 동등하거나 더 우수한 성능을 보인다. 결과 모형이 정확히 지정된 경우, GBM‑WLS는 OLS와 거의 차이가 없으며, 모형이 잘못 지정(상호작용 누락)된 경우에는 OLS 대비 20~40% 정도 RMSE가 감소한다. 로빗 회귀 기반 DR 추정도 GBM보다 다소 낮은 효율성을 보이지만, 로지스틱 대비 확연히 개선된 점이 확인된다.
이러한 결과는 두 가지 실무적 교훈을 제공한다. 첫째, propensity score 추정 단계에서 머신러닝 기반 비선형 모델을 활용하면 가중치의 극단값 문제를 완화하고, IPW와 DR 추정기의 변동성을 크게 낮출 수 있다. 둘째, 결과 모형에 중요한 변수(특히 상호작용)를 누락했을 때 DR 추정기가 OLS보다 견고하게 작동한다는 점이다. 따라서 실무에서는 “모형이 완벽히 지정될 것”이라는 가정 대신, 가중치 추정에 충분히 유연한 방법을 적용하고, DR 추정기를 병행함으로써 모델 미지정 위험을 완화하는 전략이 권장된다.
결론적으로, 저자들은 DR 추정법이 단순히 “두 번의 실수에도 견디는” 수준을 넘어, 적절한 propensity score 추정기와 결합될 경우 OLS와 동등하거나 더 효율적인 대안이 될 수 있음을 실증적으로 보여준다. 향후 연구에서는 다양한 머신러닝 알고리즘을 통한 propensity score 추정과, 실제 관찰 데이터에서의 상호작용 탐지를 자동화하는 방법을 모색함으로써 DR 추정법의 적용 범위를 넓히는 것이 필요하다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기