베이지안 경험적 가능성을 이용한 컨텍스추얼 밴딧 정책 추론

베이지안 경험적 가능성을 이용한 컨텍스추얼 밴딧 정책 추론
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 경험적 가능도(empirical likelihood)를 활용해 베이지안 프레임워크에서 여러 컨텍스추얼 밴딧 정책의 가치와 차이를 소규모 샘플에서도 정확히 추정·불확실성 정량화하는 방법을 제안한다.

상세 분석

이 연구는 오프‑폴리시 평가의 핵심 난제인 ‘부분 피드백’과 ‘행동 정책과 목표 정책 간의 확률 비율(importance weight)’의 불안정성을 경험적 가능도(EL)와 베이지안 추론을 결합함으로써 해결한다. 기존의 IS, SNIS, DR 추정기는 각각 편향·분산 문제를 안고 있으며, 특히 샘플이 적을 때 chi‑square 근사에 의존하는 EL 기반 신뢰구간은 커버리지가 크게 왜곡된다. 저자들은 EL을 비모수적 추정 방정식으로 정의하고, 정책 가치 v = E


댓글 및 학술 토론

Loading comments...

의견 남기기