다목적 추천을 위한 딥 파레토 강화학습
초록
본 논문은 추천 시스템에서 클릭률, 영상 시청량, 체류시간 등 상충되는 다중 목표를 동시에 최적화하기 위해, 개인화·맥락 정보를 동적으로 반영하고 파레토 최적화를 직접 학습하는 DeepPRL 모델을 제안한다. 하이퍼네트워크 기반 목표별 표현과 컨텍스트‑조건부 가중치 조정을 결합한 강화학습 프레임워크를 통해 단기·장기 성과를 모두 향상시켰으며, 알리바바 영상 스트리밍 서비스에서 온라인 실험을 통해 2 %‑7 % 수준의 실질적인 비즈니스 성장 효과를 입증하였다.
상세 분석
본 연구는 다목적 추천 시스템이 직면한 두 가지 근본적인 난제를 해결한다. 첫째, 목표 간 관계가 사용자마다, 그리고 시간·장소·디바이스 등 다양한 컨텍스트에 따라 이질적이고 동적으로 변한다는 점이다. 기존 방법은 고정된 가중치 혹은 사전 정의된 선형 스칼라화에 의존해 이러한 변화를 포착하지 못한다. 둘째, 단기 클릭률 최적화에만 초점을 맞추는 경우 장기적인 사용자 만족도와 매출 성장 등 다른 목표가 손상될 위험이 있다. DeepPRL은 이러한 문제를 ‘Mixture of HyperNetwork’와 ‘Deep Contextual Reinforcement Learning’이라는 두 핵심 모듈로 접근한다.
‘Mixture of HyperNetwork’는 목표별 하이퍼네트워크를 다중 구축해 각 목표에 특화된 파라미터를 생성한다. 이후 혼합 어텐션 네트워크가 이들 파라미터를 통합해 목표 간 상호작용을 학습한다. 이 설계는 목표 간 상관관계가 양(positive) 혹은 음(negative)일 때 각각 다른 조합을 자동으로 찾아내어 파레토 전선을 효과적으로 확장한다.
‘Deep Contextual Reinforcement Learning’은 현재 사용자 컨텍스트(시간, 디바이스, 최근 행동 등)를 입력으로 받아 목표 가중치를 실시간으로 재조정한다. 강화학습 에이전트는 즉시 보상(예: 클릭)뿐 아니라 장기 보상(예: 체류시간, 재방문율)까지 고려해 정책을 업데이트한다. 이때 다중 목표 보상은 파레토 효율성을 목표로 하는 다목적 가치 함수로 정의되며, 정책 그라디언트는 파레토 프론티어 상에서의 개선을 보장하도록 설계되었다. 논문은 또한 이론적 수렴성 및 파레토 우위 보장을 위한 정리와 증명을 제공한다.
실험 측면에서 저자는 알리바바, 유쿠, 스포티파이, 쿠아이쇼 등 네 개의 실제 데이터셋에 대해 오프라인 벤치마크를 수행했으며, 모든 목표에서 기존 최첨단 모델(MMOE, Shared‑Bottom, MoSE 등)을 크게 앞섰다. 특히 파레토 지표(하이퍼볼륨, 지배 비율)에서 평균 15 %‑20 %의 향상을 기록했다. 온라인 A/B 테스트에서는 영상 스트리밍 서비스에서 클릭률 2 %, 영상 시청량 5 %, 체류시간 7 %를 동시에 끌어올려 매출 및 사용자 만족도에 실질적인 기여를 확인했다.
한계점으로는 하이퍼네트워크와 어텐션 구조가 복잡해 학습 비용이 증가하고, 목표 수가 급격히 늘어날 경우 스칼라화 가중치의 차원 관리가 어려워질 수 있다는 점을 언급한다. 향후 연구에서는 목표 간 상호작용을 그래프 기반으로 모델링하거나, 메타‑학습을 통해 컨텍스트 전이성을 강화하는 방향을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기