온라인 순위 학습: 이산 선택과 스피어만 상관계수에 대한 최적 레그레트

본 논문은 사용자가 클릭하거나 선택한 아이템을 피드백으로 받아, 매 라운드마다 전체 아이템 집합에 대한 순위를 제시하는 온라인 순위 문제를 다룬다. 피드백이 하나 혹은 최대 k 개의 아이템인 경우, 제안된 알고리즘은 기대 레그레트를 \(O\!\left(n^{3/2}\sqrt{Tk}\right)\) 로 보장하며, 기존 방법보다 \(\Omega(\sqrt{k})\)·\(\Omega(\sqrt{\log n})\) 만큼 개선하고 실행 시간도 \(O(n…

저자: Nir Ailon

본 논문은 온라인 순위 학습 문제를 새로운 관점에서 재정의하고, 이산 선택 피드백 모델에 대한 효율적인 알고리즘과 이론적 분석을 제시한다. 문제 설정은 다음과 같다. 고정된 아이템 집합 \(V\) (크기 \(n\))가 주어지고, 매 라운드 \(t=1,\dots,T\)마다 알고리즘은 전체 집합에 대한 순위 \(\pi_t\)를 무작위로 출력한다. 이후 자연은 피드백 집합 \(U_t\subseteq V\) (크기 ≤ k)를 공개한다. 손실은 \(U_t\)에 포함된 아이템들의 순위 위치의 합, 즉 \(\ell(\pi_t,s_t)=\sum_{u\in V}\pi_t(u)s_t(u)\) 로 정의된다. 여기서 \(s_t\)는 \(U_t\)를 나타내는 0‑1 지시 함수이다. 목표는 전체 손실을 최소화하는 것이며, 성능 평가는 최적 고정 순위 \(\pi^*\)와의 누적 레그레트(차이)로 측정한다. 논문은 먼저 손실 함수를 쌍(pair) 기반 손실 \(\ell_{\text{pair}}\) 로 변형한다. \(\ell_{\text{pair}}(\pi,s)=\sum_{u\neq v}

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기