지연 피드백 수익 관리 위한 선택 모델 기반 Q학습
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.
초록
본 논문은 호텔 예약에서 발생하는 취소·수정과 같은 지연 피드백을 고려한 수익 관리 문제에 대해, 사전에 학습된 이산 선택 모델(DCM)을 부분 세계 모델로 활용하여 즉시 보상 값을 추정하고, 이를 Q‑learning에 통합하는 방법을 제안한다. 고정된 DCM을 사용한 경우, 탭ular Q‑learning이 모델 오차 ε에 비례한 편향과 샘플링 오차 O(t⁻¹ᐟ²)를 갖는 근접 최적해로 수렴함을 이론적으로 증명하고, 실제 61,619건의 호텔 예약 데이터를 기반으로 만든 시뮬레이터 실험을 통해 정적 환경에서는 기존 DQN과 차이가 없으며, 파라미터 변동이 있는 인‑패밀리 상황에서는 최대 12.4%의 매출 향상을, 구조적 모델 오차가 있는 경우에는 1.4~2.6%의 매출 감소를 관찰한다.
상세 분석
이 논문은 두 가지 핵심 아이디어를 결합한다. 첫째, 수익 관리에서 흔히 발생하는 1~14일 지연된 취소·수정(‘쇼크’)을 즉시 관측 가능한 특성(고객 프로필, 객실 유형, 경쟁 가격 등)과 연결시켜, 이산 선택 모델(DCM)이 조건부 확률 P(z|o;θ)를 제공하도록 한다. DCM은 최대우도 추정으로 사전 학습되며, IIA(독립적 대체 가능성)와 같은 전통적 가정을 갖는다. 둘째, 강화학습 에이전트는 행동 a_t(가격)를 선택한 뒤 즉시 관측되는 즉시 수익 r_imm_t와 DCM이 예측한 기대 지연 보상 ĥr_del_t=E_{z∼P(·|o;θ)}
댓글 및 학술 토론
Loading comments...
의견 남기기