유사성 정보를 활용한 컨텍스트 밴딧

본 논문은 컨텍스트 밴딧 문제에 대해, 컨텍스트와 팔 사이의 유사성 거리 정보를 이용해 기대 보상의 차이를 상한으로 제시한다. 기존의 균일 파티셔닝 방식이 비효율적이라는 점을 지적하고, 인기 있는 컨텍스트와 높은 보상을 제공하는 팔에 초점을 맞춘 적응형 파티션 알고리즘을 설계한다. 이 알고리즘은 이론적 regret 상한을 개선하고, 실험을 통해 실제 광고 배치 시나리오에서도 우수한 성능을 보인다.

저자: Aleks, rs Slivkins

**1. 서론 및 배경** 다중 팔 밴딧(MAB) 문제는 제한된 전략 집합에서 최적의 선택을 순차적으로 학습하는 프레임워크로, 온라인 광고, 추천 시스템 등에서 광범위하게 활용된다. 전통적인 MAB는 팔의 수가 작을 때는 효율적인 알고리즘이 존재하지만, 실제 서비스에서는 수천에서 수백만에 이르는 팔이 존재하거나 연속적인 행동 공간을 다루어야 한다. 이를 해결하기 위해 최근 연구들은 **유사성 정보(similarity information)**를 도입해, 팔 사이의 거리나 구조적 관계를 이용해 탐색 비용을 감소시키는 방법을 제시했다. **2. 컨텍스트 밴딧과 유사성 거리** 컨텍스트 밴딧은 매 라운드마다 외부 환경(예: 사용자 프로필, 페이지 내용)이라는 컨텍스트가 제공되고, 알고리즘은 해당 컨텍스트에 맞는 팔을 선택한다. 이때 기대 보상은 컨텍스트와 팔의 조합에 따라 달라진다. 논문은 **(컨텍스트, 팔) 쌍**을 하나의 점으로 보고, 이들 사이에 **유사성 거리 d((x,a),(x',a'))**를 정의한다. 핵심 가정은 다음과 같다: \

유사성 정보를 활용한 컨텍스트 밴딧

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기