지연 컨텍스트 활용 오프‑정책 평가와 학습: DOLCE 접근법
초록
DOLCE는 로그 데이터에 포함된 과거(context lag) 정보를 이용해 중요도 가중치를 재구성하고, 지원(overlap) 위반이 발생해도 편향을 제거하는 오프‑정책 평가·학습 프레임워크이다. lag‑마진화된 중요도 가중치와 보상 모델의 잔차가 lag‑조건부 평균 0이라는 “잔차‑분산” 가정 하에 현재와 과거 효과를 분리해 편향을 상쇄한다. 다중 lag를 소프트‑미니 집계하고, 모멘트 기반 학습으로 잔차‑분산을 추정한다. 이론적으로 무편향, 일관성, 점근적 정규성을 보이며, 실험에서 지원 위반이 심할수록 기존 방법보다 크게 개선된다.
상세 분석
DOLCE는 기존 오프‑정책 평가(OPE)와 오프‑정책 학습(OPL)에서 필수적인 행동‑지원(overlap) 가정이 깨지는 상황을 해결하기 위해, 로그 데이터에 자연스럽게 저장된 과거 컨텍스트(‘lagged context’)를 활용한다. 핵심 아이디어는 현재 컨텍스트 X에 대한 중요도 가중치 πθ(A|X)/π0(A|X) 대신, lag k에 대해 마진화된 정책 확률 (\barπ_{θ,k}(a|X^{(k)}))와 (\barπ_{0,k}(a|X^{(k)}))를 사용해 lag‑weight (w_k = \barπ_{θ,k}/\barπ_{0,k})를 구성하는 것이다. 이렇게 하면 lag k 수준에서만 지원이 존재하면 충분하므로, 현재 컨텍스트에서 지원이 결여돼도 편향이 발생하지 않는다.
편향 상쇄는 ‘잔차‑분산(residual‑in‑variance)’ 가정에 기반한다. 보상 모델 (\tilde q_k(X,X^{(k)},A))의 오차 (\Delta_k = q_k - \tilde q_k)가 lag k와 행동 A에만 의존하고 현재 컨텍스트 X와는 독립적이면, 즉 (\Delta_k = \delta_k(X^{(k)},A))이면, lag‑weight와 보상 모델을 결합한 DOLCE 추정량은 정확히 무편향이 된다. 이 가정은 전역적인 보상 모델 정확성보다 훨씬 완화된 조건이며, 기존 연구의 ‘local correctness’ 개념을 일반화한다.
다중 lag가 존재할 경우, 최소 하나의 lag가 위 가정을 만족한다면 충분하다는 ‘one‑good‑lag’ 원리를 도입한다. 각 lag에 대해 ALC(Approximate Local Correctness) 점수 (ALC_k = \mathbb{E}
댓글 및 학술 토론
Loading comments...
의견 남기기