지연 피드백을 고려한 온라인 학습

본 논문은 온라인 학습에서 피드백이 지연되는 상황을 일반화된 부분 모니터링 모델로 정의하고, 지연이 적대적 환경에서는 regret을 곱셈적으로, 확률적 환경에서는 덧셈적으로 악화시킨다는 핵심 결과를 제시한다. 이를 위해 비지연 알고리즘을 블랙박스로 변환하는 BOLD 메타‑알고리즘과, 복잡도를 낮춘 지연형 UCB 변형을 제안한다.

저자: Pooria Joulani, Andras Gy"orgy, Csaba Szepesvari

본 논문은 온라인 학습에서 피드백이 지연되는 상황을 체계적으로 연구하고, 지연이 regret에 미치는 영향을 정량적으로 분석한다. 먼저, 저자들은 “부분 모니터링(partial monitoring)”이라는 일반적인 프레임워크를 제시한다. 이 모델은 예측 집합 A, 부수 정보 X, 결과 집합 B, 보상 함수 r, 피드백 함수 h, 그리고 각 시점 t에서 발생하는 지연 τ_t 를 포함한다. 학습자는 매 시점 t에 부수 정보를 관찰하고 행동 a_t 를 선택한다. 환경은 동시에 보상 함수 r_t 와 결과 b_t 를 정하고, 학습자는 보상 r_t(x_t,a_t) 를 받지만 피드백 h_t = h(x_t,a_t,b_t) 은 τ_t 만큼 뒤에 도착한다. 피드백은 시간 스탬프와 함께 도착하므로, 여러 피드백이 동시에 도착할 수 있다. 이 모델은 전통적인 전 정보(full‑information), 밴드릿(bandit), 그리고 일반적인 부분 모니터링 문제를 모두 포괄한다. 논문은 두 주요 설정—적대적(adversarial)과 확률적(stochastic)—에 대해 각각 별도의 분석을 제공한다. 1. **적대적 설정** - 비지연 알고리즘 Base가 regret 상한 f(n) 을 만족한다면, 지연이 존재할 때 BOLD(Black‑Box Online Learning under Delayed feedback) 메타‑알고리즘을 통해 (E

지연 피드백을 고려한 온라인 학습

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기