재생 입자 토마스 샘플링: 적응형 파티클 기반 밴딧 최적화
본 논문은 기존 파티클 토마스 샘플링(PTS)의 한계를 극복하기 위해, 성능이 낮은 파티클을 삭제하고 적합한 파티클 주변에 새로운 파티클을 재생성하는 재생 입자 토마스 샘플링(RPTS) 알고리즘을 제안한다. 드리프트 행렬을 이용한 샘플 경로 분석을 통해 살아남는 파티클의 특성을 이론적으로 설명하고, 다양한 베이스 밴딧 문제와 5G 네트워크 슬라이싱 시뮬레이션에서 RPTS가 PTS보다 일관되게 낮은 누적 레그레트를 달성함을 실험적으로 입증한다.
저자: Zeyu Zhou, Bruce Hajek, Nakjung Choi
본 논문은 베이지안 밴딧 문제에서 토마스 샘플링(TS)의 이상적인 성능에도 불구하고, 연속적인 사후분포를 유지·샘플링하는 것이 실용적으로 어려운 점을 지적한다. 이를 해결하기 위해 파티클 토마스 샘플링(Particle Thompson Sampling, PTS)이 제안되었으며, 고정된 N 개의 파티클 P_N 위에 베이즈 업데이트 규칙을 적용해 가중치 w_t 를 반복적으로 갱신한다. PTS는 관측 모델 P_θ(·|a) 와 파라미터 θ 에 대한 사전 지식이 거의 없어도 적용 가능하다는 장점이 있다. 그러나 파티클이 정적이고 유한하기 때문에 실제 파라미터 θ* 와 정확히 일치하는 파티클이 없을 경우, 대부분의 파티클 가중치가 급격히 0으로 수렴하고 소수의 ‘적합 파티클’만이 살아남는다. 이 현상은 실험적으로 관찰되었으며, 논문은 이를 이론적으로 설명하기 위해 ‘드리프트 매트릭스(D)’를 정의한다. D_{ij}=E
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기