대규모 행동 공간 밴딧을 위한 대표 행동 선택

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 여러 밴딧 인스턴스가 공유하는 거대한 행동 집합에서, 상호 상관관계를 활용해 소규모 대표 행동 집합을 자동으로 추출하는 알고리즘을 제안한다. 이 방법은 사전 상관 구조를 알 필요 없이 샘플링 기반 ε‑넷 기법을 이용해 기대 regret을 이론적으로 제한하고, 실험을 통해 기존 Thompson Sampling·UCB 대비 우수함을 입증한다.

상세 분석

논문은 먼저 “대표 행동 선택”이라는 새로운 문제 설정을 정의한다. 여기서는 동일한 행동 공간 A_full을 공유하는 밴딧 패밀리 F가 존재하고, 각 밴딧 인스턴스 θ∈F에 대해 기대 보상 μ_a(θ)가 정의된다. 행동 a와 a′가 대부분의 θ에 대해 μ_a와 μ_a′가 유사하면 두 행동은 통계적으로 상관관계가 높다고 본다. 목표는 기대 regret E_θ

대규모 행동 공간 밴딧을 위한 대표 행동 선택

초록

상세 분석

댓글 및 학술 토론

의견 남기기