“고정‑시간 자기정규화 Wald 검정: 로그된 실행 확률과 마팅게일 AIPW/DML을 활용한 적응 실험의 새로운 통계학”

2026년 02월 23일

읽는 시간: 7 분

...

📝 Abstract

Adaptive randomized experiments update treatment probabilities as data accrue, but still require an end-of-study interval for the average treatment effect (ATE) at a prespecified horizon. Under adaptive assignment, propensities can keep changing, so the predictable quadratic variation of AIPW/DML score increments may remain random. When no deterministic variance limit exists, Wald statistics normalized by a single long-run variance target can be conditionally miscalibrated given the realized variance regime. We assume no interference, sequential randomization, i.i.d. arrivals, and executed overlap on a prespecified scored set, and we require two auditable pipeline conditions: the platform logs the executed randomization probability for each unit, and the nuisance regressions used to score unit $t$ are constructed predictably from past data only. These conditions make the centered AIPW/DML scores an exact martingale difference sequence. Using self-normalized martingale limit theory, we show that the Studentized statistic, with variance estimated by realized quadratic variation, is asymptotically N(0,1) at the prespecified horizon, even without variance stabilization. Simulations validate the theory and highlight when standard fixed-variance Wald reporting fails.

💡 Analysis

1. 연구 배경 및 문제 정의

적응형 실험(response‑adaptive trials, contextual bandits 등)은 실시간 학습‑배포 균형을 위해 할당 확률을 지속적으로 업데이트한다.
대부분의 플랫폼은 고정‑시간 보고(예: 실험 종료 시점에 ATE 산출)를 요구하지만, propensity 과정 {πₜ} 가 데이터‑의존적이면 전통적인 Wald 검정이 필요로 하는 확정적 분산 한계가 존재하지 않는다.
기존 연구(Hadad et al., 2021; Zhan et al., 2021 등)는 분산 안정화(stabilization) 혹은 배치 설계를 도입해 이 문제를 회피했지만, 실제 서비스에서는 클리핑, 가드레일, 배치 전환 등으로 변동성이 크게 남는다.

2. 핵심 가정 및 감사 가능한 조건

가정	내용	실무적 의미
Assumption 3.2 (Logging integrity)	실행된 πₜ 가 정확히 로그에 기록되고, Aₜ	Gₜ ∼ Bernoulli(πₜ)
Assumption 4.5 (Predictable nuisance fitting)	nuisance 모델은 오직 과거 데이터만 사용해 학습	“피킹(peeking)” 방지, 재현 가능성 확보
Assumption 3.5‑3.7 (SUTVA, i.i.d. superpopulation, sequential randomization)	전통적인 인과 가정	적응형 정책이 할당만을 바꾸고, 유닛 선택에는 영향을 주지 않음
Assumption 3.8 (Executed overlap)	모든 스코어링 대상에 대해 πₜ ≥ ε > 0 보장 (클리핑 등)	극단적인 가중치(1/πₜ) 폭발 방지
Assumption 3.9 (Moment)	4차 모멘트 유한	자기정규화 마팅게일 CLT 적용에 충분

이러한 가정은 시스템 로그와 데이터 파이프라인에서 직접 검증 가능하므로 “감사 가능(auditable)”하다는 점이 논문의 핵심 차별점이다.

3. 이론적 기여

마팅게일 차분열(Lemma 5.3)
- 중심화된 AIPW/DML 점수 (\tilde\phi_t) 가 (\mathcal{F}_{t-1})‑조건부 평균 0을 만족하는 정확한 마팅게일 차분임을 증명.
- 이는 로그된 πₜ와 과거‑전용 nuisance 추정이 결합된 결과이며, 기존 연구에서 가정하던 “예측 가능성(predictability)”을 명시적으로 구조화한다.
자기정규화 마팅게일 CLT (Theorem 5.14)
- 실현된 이차 변동 (V_n = \sum_{t=1}^n \tilde\phi_t^2) 로 표준화한 통계량
  \

🇺🇸 Read in English

📄 Content

적응형 무작위 실험(Adaptive Randomized Experiments)
응답‑적응 임상시험, 상황‑밴딧(contextual bandits), 그리고 대규모 플랫폼 실험 시스템을 포함한다. 이러한 시스템은 데이터가 누적됨에 따라 할당 확률을 업데이트하여 학습과 배치를 균형 있게 유지한다(Kasy & Sautmann, 2021). 실제 현장에서는 여전히 많은 플랫폼이 사전에 정해진 시점에 한 번만 계산되는 초집단 평균 처리 효과(super‑population ATE)와 같은 고전적 인과 추정량에 대해 전통적인 ‘연구 종료 후(end‑of‑study)’ 보고 방식을 요구한다. 여기서는 실험 로그에 기록된, 플랫폼이 적용한 모든 가드레일(guardrails) 이후에 실제로 각 단위 t 를 무작위화하는 데 사용된 할당 확률을 πₜ 라고 표기한다. 본 논문에서는 고정‑시점(fixed‑horizon) Wald 추론을, 로그에 남겨진 propensity를 이용해 듀얼‑강건(doubly robust) 의사‑결과(pseudo‑outcome)를 점수화한 표준 로그‑propensity AIPW/DML 추정량에 대해 연구한다.

적응형 할당 하에서는 propensity 과정 {πₜ} 자체가 데이터에 의존하므로, AIPW/DML 점수 증분의 예측가능(predictable) 이차 변동(predictable quadratic variation)은 복제‑무작위(replication‑random) 상태를 유지할 수 있고, 단일한 결정론적 장기 분산 목표값으로 수렴할 필요가 없다.

기존 Wald 접근법의 한계

AIPW/A2IPW(및 관련 DML 추정량) 에 대한 ‘연구 종료 후’ Wald 논증은 보통 Slutsky 단계에 의존한다. 이 단계는 예측가능 이차 변동이 결정론적 분산 목표값에 수렴한다는 가정에 기반한다(예: Hadad et al., 2021; Zhan et al., 2021; Kato et al., 2020; Cook et al., 2024; Li & Owen, 2024; Sengupta et al., 2025). 현대 플랫폼에서는 정책이 잡음이 섞인 중간 추정값에 계속 반응한다. 클리핑(clipping)과 가드레일이 간헐적으로 활성화되고, 배치 업데이트가 체제 전환(regime switch)을 일으킬 수 있다. 이런 상황에서 단일 결정론적 분산으로 정규화된 Wald 통계는 실제 관측된 분산 체제에 조건부로 체계적으로 보정되지 않을 수 있다(표면적인 주변 커버리지는 명목 수준에 가깝게 보일지라도).

본 논문의 핵심 아이디어

플랫폼은 실제 사용된 propensity(πₜ)를 로그에 남긴다.
노이즈 회귀(nuisance regressions)는 오직 과거 데이터만을 사용해 예측 가능하게 적합한다.

이러한 ‘감사 가능(auditable)’ 조건 하에서, 중심화된 점수 증분은 정확한 마르티갈 차이(Martingale Difference) 시퀀스를 형성한다. 우리는 실제 관측된 propensity 경로를 따라 계산된 실현 이차 변동(realized quadratic variation) 으로 학생화(studentize)함으로써 고정‑시점 Wald 추론을 수행한다. 결과적으로 예측가능 이차 변동이 결정론적 장기 분산으로 수렴하지 않아도 비대칭(N(0, 1)) 정규화가 asymptotically 보장된다.

주요 기여

감사 가능한 마르티갈 점수
- 로그/예측 가능 계약, 로그된 실행 propensity, 예측 가능한 노이즈 회귀를 정형화하고, 이 하에서 중심화된 AIPW/DML 점수 증분이 정확한 마르티갈 차이임을 보인다(Lemma 5.3).
고정‑시점 자체‑정규화 Wald 추론
- 실현 이차 변동을 이용한 분산 추정으로 만든 Studentized 통계가 사전 지정된 시점에서 N(0, 1)으로 수렴함을 증명한다(Theorem 5.14). 이는 결정론적 장기 분산이 존재하지 않아도 된다.
실현 가능한 학생화(feasible studentization)
- 실무에서 사용하는 플러그‑인 학생화량이 실현 이차 변동을 일관적으로 추정함을 보이고, 따라서 실현 가능한 Wald 구간도 동일한 고정‑시점 타당성을 갖는다(Proposition 4.11).
오라클 벤치마크와 노이즈 회귀 효과
- 조건부 2차 모멘트 분해를 통해 오라클 정밀도 기준을 제시하고, 노이즈 회귀 오차에 의해 발생하는 비음성 보강항을 분리한다(Proposition 5.8). L₂ 가중 수렴 하에서는 실현 가능한 통계가 오라클과 asymptotically 동등함을 보인다(Theorem C.4).

논문의 구성

Section 2: 관련 연구 검토.
Section 3: 모델 및 가정 제시.
Section 4: 추정량 및 감사 가능한 구현 세부사항.
Section 5: 주요 이론 결과 전개.
Section 6: 시뮬레이션 결과.
부록: 한계 이론 배경, 추가 결과·증명, 운영 로그 프로토콜.

1. 적응형 데이터와 인과 추론에 대한 배경

관측이 진화하는 정보 집합 하에서 수집되는 적응형 데이터에 대한 추론 문헌이 급증하고 있다. 전통적인 i.i.d. 가정이 깨지는 상황에서, 초기 경제계량학 연구(Hahn et al., 2011)는 propensity 정보를 활용해 순차 설계에서 추론을 수행하는 방법을 제시했다. 최근 일반 프레임워크는 폭넓은 조건 하에서 순차적 의사결정과 적응형 실험에 대한 asymptotic representation을 도출한다(Hirano & Porter, 2023). 상황‑밴딧(contextual‑bandit) 및 적응형 실험 문헌에서도 배치 OLS/배치‑별 학생화 기법을 통해 고정‑시점 추론이 개발되었다(Zhang et al., 2020).

우리의 초점은 플랫폼 실험에 운영적으로 핵심적인 고정‑시점 ATE 보고이며, 로그된 실행 propensity와 예측 가능한 AIPW/DML 점수를 이용한다. 특히, 예측 가능한 이차 변동이 복제마다 무작위성을 유지하는 경우를 다루어, 결정론적 분산 정규화가 조건부로 보정되지 않을 위험을 방지한다. 응답‑적응 무작위화와 밴딧‑스타일 설계에 대한 일반적인 배경은 Rosenberger & Lachin(2015), Villar et al.(2015)를 참고한다.

2. 적응형 실험과 오프‑정책 평가에서의 분산 제어

진화하는 propensity는 무거운 꼬리와 체제‑의존적 불확실성을 초래한다. 정책 평가 분야에서는 Hadad et al.(2021)와 Zhan et al.(2021)이 증강 IPW/DR 점수에 대한 적응형 가중 스키마를 제시해 asymptotically 정상적인 t-통계를 얻었다. 상황‑밴딧 후 추론을 위해 Bibaut et al.(2021)은 과거 데이터만을 사용해 조건부 스케일을 추정하는 안정화된 듀얼‑강건 구조를 제안했다. 또 다른 접근은 배치 설계(예: Zhang et al., 2020)를 통해 전통적인 CLT를 회복하는 것이지만, 우리는 표준 로그‑propensity AIPW/DML 추정량을 그대로 유지하고 배치나 적응형 재가중을 요구하지 않는다. 대신 마르티갈 점수 표현과 실현 이차 변동에 의한 학생화에 의존한다.

3. 결정론적 설계 안정성 vs. 실현 가능한 정규화

일부 연구는 inverse‑propensity 평균이나 평균 조건부 분산이 비무작위 한계값에 수렴하도록 설계 안정성 조건을 가정한다(Sengupta et al., 2025). 또 다른 흐름은 A2IPW/DML 추정량의 효율성을 목표로 할당 규칙을 설계한다(Kato et al., 2020; Li & Owen, 2024; Cook et al., 2024). 그러나 실제 플랫폼에서는 “로그 정책”이 클리핑, 가드레일, 알고리즘적 무작위성 등에 의해 복잡해진다(Kato et al., 2021). 우리의 접근은 실제 사용된 propensity가 로그에 남겨졌다는 전제와 예측 가능한 노이즈 회귀만을 요구한다. 이렇게 하면 예측 가능한 이차 변동이 결정론적 한계값에 수렴하지 않아도, 실현 이차 변동을 정규화로 사용해 Wald 통계의 정확한 N(0, 1) 근사를 얻을 수 있다.

4. 마르티갈 CLT와 자체‑정규화 과정

고정‑시점 Wald 통계는 자체‑정규화(self‑normalized) 마르티갈 함수이다. 마르티갈 CLT와 자체‑정규화 과정에 대한 고전 참고문헌으로는 Hall & Heyde(1980), de la Peña et al.(2009), Shao & Wang(2013) 등이 있다. 현대 확률 이론은 자체‑정규화 마르티갈에 대해 베리‑에센(Berry‑Esseen) 경계(Fan & Shao, 2017), 크래머형 중간 편차(Cramér‑type moderate deviations)(Fan et al., 2019), 그리고 농축 부등식(concentration inequalities)(Bercu & Touati, 2019) 등을 제공한다. 우리는 이러한 이론을 적응형 할당 하의 AIPW/DML 점수 증분에 적용하여, 실현 이차 변동을 이용해 고정‑시점 N(0, 1) 근사를 얻는다. 이는 결정론적 분산 한계가 존재하지 않아도 된다.

5. 고정‑시점 vs. 연속 모니터링

본 논문의 결과는 사전 지정된 시점에만 적용되며, 선택적 중단(optional stopping) 보장은 제공하지 않는다. 연속 모니터링이나 데이터‑의존적 중단이 필요할 경우, 테스트 마르티갈(super‑martingale)과 신뢰 구간 시퀀스(confidence sequences)를 기반으로 한 시간‑균등(time‑uniform) 방법이 적절하다(Howard et al., 2021; Waudby‑Smith et al., 2024). 이러한 시간‑균등 도구는 고정‑시점 추론과 병행해서

ArXiv 원문 보기

이 글은 AI가 자동 번역 및 요약한 내용입니다.

“고정‑시간 자기정규화 Wald 검정: 로그된 실행 확률과 마팅게일 AIPW/DML을 활용한 적응 실험의 새로운 통계학”

📝 Abstract

💡 Analysis

1. 연구 배경 및 문제 정의

2. 핵심 가정 및 감사 가능한 조건

3. 이론적 기여

📄 Content

기존 Wald 접근법의 한계

본 논문의 핵심 아이디어

주요 기여

논문의 구성

1. 적응형 데이터와 인과 추론에 대한 배경

2. 적응형 실험과 오프‑정책 평가에서의 분산 제어

3. 결정론적 설계 안정성 vs. 실현 가능한 정규화

4. 마르티갈 CLT와 자체‑정규화 과정

5. 고정‑시점 vs. 연속 모니터링

목차

목차

📝 Abstract

💡 Analysis

1. 연구 배경 및 문제 정의

2. 핵심 가정 및 감사 가능한 조건

3. 이론적 기여

📄 Content

기존 Wald 접근법의 한계

본 논문의 핵심 아이디어

주요 기여

논문의 구성

1. 적응형 데이터와 인과 추론에 대한 배경

2. 적응형 실험과 오프‑정책 평가에서의 분산 제어

3. 결정론적 설계 안정성 vs. 실현 가능한 정규화

4. 마르티갈 CLT와 자체‑정규화 과정

5. 고정‑시점 vs. 연속 모니터링

검색 시작

검색 결과 없음