조건부 승자 식별을 위한 샘플링 복잡도 혁신

본 논문은 확률적 듀얼링 밴드릿(dueling bandits) 문제에서 Condorcet 승자(모든 다른 팔과의 승률이 ½보다 큰 유일한 팔)의 식별에 필요한 샘플링 복잡도를 체계적으로 분석한다. 기존 연구는 주로 Condorcet 승자가 존재한다는 가정 하에, 승자와 각 비승자 간의 직접 비교만을 이용해 기대 샘플 수를 평가했으며, 이는 “CW‑SO”(Condorcet winner is Strongest Opponent)라는 제한적인 구조에만 최적이라고 주장했다. 그러나 실제 상황에서는 비승자들 사이에도 유용한 정보가 존재한다. 저자들은 이러한 정보를 활용하기 위해 전체 갭 행렬 Δ_{i,j}=q_{i,j}−½ (여기서 q_{i,j}는 i가 j를 이길 확률)를 완전하게 이용하는 새로운 알고리즘을 설계한다. 알고리즘은 두 단계로 구성된다. 첫 번째는 고정 예산(Fixed‑Budget) 버전인 FB‑CWI이며, 활성 팔 집합 A_k 을 매 라운드마다 ⅞ 비율로 유지하면서 각 팔에 점수를 부여한다. 점수는 (1) 강한 상대(strong opponent) 탐색과 해당 쌍의 갭 추정, (2) 약한 상대(weak opponent) 통계(활성 집합 내 행의 하위 분위수) 두 부분으로 이루어진다. 강한 상대는 Sequential Halving을 사용해 전체 K 팔 중에서 가장 승률이 높은 팔을 찾으며, 이는 비승자들을 빠르게 구분하는 데 기여한다. 약한 상대 통계는 행에 존재하는 부정적 갭이 적어도 |A_k|/4 개 이상 존재한다는 피igeon‑hole 논리를 이용해, 비승자들의 하위 1/8 ~ 1/4 분위수에 해당하는 갭을 추정한다. 두 통계의 조합은 승자와 비승자를 명확히 구분하도록 설계되었으며, 매 라운드마다 최하위 1/8 비율의 팔을 제거한다. 점수 계산에 필요한 샘플 수는 두 비용으로 분해된다. 첫 번째는 “탐색 비용”(H_explore)으로, 각 비승자 행에서 절대값이 |Δ_{i,(s_i)}| 이상인 부정적 갭을 찾는 데 필요한 샘플 수를 나타낸다. 여기서 s_i 는 해당 행에서 선택할 부정적 갭의 개수이며, Δ_{i,(s_i)} 는 s_i번째로 큰(절대값이 작은) 부정적 갭이다. 탐색 비용은 log(1/δ) 에 대해 한 팔에만 의존한다는 점이 특징이다. 두 번째는 “인증 비용”(H_certify)으로, 탐색 단계에서 선택된 갭들의 부호를 1−δ 신뢰도로 판단하기 위해 필요한 샘플 수를 의미한다. 인증 비용은 모든 비승자에 대해 합산된다. 이 두 비용을 합한 전체 복잡도는 다음과 같이 표현된다. \

조건부 승자 식별을 위한 샘플링 복잡도 혁신

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기