전략과 경쟁하기: 온라인 학습의 새로운 최소극대 레짐

본 논문은 고정된 행동이 아닌, 복수의 동적 전략 집합에 대해 경쟁하는 온라인 학습 프레임을 제시한다. 순차적 라데마허 복잡도와 최소극대 정리를 이용해 regret의 상한을 도출하고, 자동회귀, 통계 모델, 정규화 최소제곱, FTRL 등 다양한 전략군에 대해 효율적인 알고리즘을 설계한다.

저자: Wei Han, Alex, er Rakhlin

본 논문은 온라인 학습에서 전통적으로 사용되어 온 “고정된 베스트 행동”에 대한 regret 정의를 넘어, 시간에 따라 변하는 복수의 전략 집합 Π에 대해 경쟁하는 새로운 프레임워크를 제시한다. 저자들은 먼저 전략 집합에 대한 **순차적 라데마허 복잡도** R(ℓ, Π)를 정의한다. 여기서는 두 종류의 트리, 즉 히스토리 트리 w와 결과 트리 z를 도입해, 각 시점 t의 Rademacher 변수 ε_t와 전략의 예측값을 선형 결합한다. 이 복잡도는 기존 i.i.d. 라데마허 평균을 일반화한 것으로, 전략이 과거 전체 히스토리에 의존할 때도 적용 가능하도록 설계되었다. 다음으로, **최소극대 정리**를 이용해 게임 가치 V_T(Π)와 복잡도 사이에 V_T(Π) ≤ 2 R(ℓ, Π)라는 상한을 증명한다. 증명 과정에서는 전략의 히스토리 의존성을 고려한 새로운 순차적 대칭화 기법을 도입했으며, 이는 기존 정적 전문가 모델에서 사용된 대칭화와는 근본적으로 다르다. 또한, 손실 함수가 L‑Lipschitz인 경우 V_T^{S}(Π) ≤ 2L sup_{x,y} E_ε sup_{π∈Π} ∑_{t} ε_t π_t(·) 형태의 보다 일반적인 상한을 얻는다. 이론적 결과를 바탕으로 저자들은 네 가지 주요 전략군에 대해 구체적인 알고리즘을 설계한다. 1. **자동회귀(AR) 전략** 파라미터 θ∈Θ⊂ℝ^k 로 정의된 선형 예측 π_t(z_{1:t‑1})=∑_{i=0}^{k‑1}θ_{i+1} z_{t‑k+i}를 고려한다. 순차적 라데마허 복잡도는 √(kT) 로 상한이 잡히며, 이는 단순 Gradient Descent 업데이트 θ_{t+1}=Proj_Θ(θ_t‑η

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기