자기수정 자동중단 경로 리스트 추천 모델 SCASRec
초록
SCASRec은 순위와 중복 제거를 하나의 생성형 엔코더‑디코더 구조로 통합한 모델이다. 단계별 교정 보상(SCR)으로 리스트 수준의 커버리지 신호를 활용하고, 학습 가능한 종료 토큰(EOR)으로 리스트 길이를 자동 조절한다. 오프라인 손실과 온라인 KPI 간의 불일치를 해소하고, 수동 규칙 기반 중복 제거를 대체하며, 기존의 파인‑랭킹·리‑랭킹 이중 구조를 탈피한다. 두 개의 공개 라우트 데이터셋에서 오프라인·온라인 모두 최고 성능을 기록했으며, 실제 내비게이션 앱에 배포돼 실효성을 입증했다.
상세 분석
SCASRec은 기존 라우트 추천 파이프라인이 안고 있던 세 가지 근본적인 문제—오프라인 학습 목표와 온라인 지표 간의 불일치, 경로 중복 제거를 위한 경직된 휴리스틱, 파인‑랭킹과 리‑랭킹 사이의 단계적 결합—를 하나의 엔코더‑디코더 생성 모델로 해결한다는 점에서 혁신적이다. 핵심 메커니즘은 두 가지이다. 첫째, 단계별 교정 보상(SCR)은 현재까지 생성된 리스트 (\bar{P}t)와 실제 사용자가 선택한 최적 경로 사이의 커버리지 차이를 정량화한다. 이 차이는 “남은 개선 가능성”을 나타내며, 보상이 큰 단계일수록 모델이 더 큰 손실을 받도록 가중한다. 따라서 학습 과정에서 모델은 리스트 수준의 목표(MRR와 LCR)를 직접 최적화하게 되고, 아이템 수준 클릭 신호만을 이용하는 전통적 방법보다 온라인 KPI와의 정합성이 크게 향상된다. 둘째, 학습 가능한 종료 토큰(EOR)은 기존의 고정 임계값 기반 중복 차단을 대체한다. ground‑truth 경로가 처음 등장한 시점 (\hat{t}) 직후에 EOR을 생성하도록 보상을 부여함으로써, 불필요한 추가 경로(중복) 발생을 최소화한다. 이때 보상 (\alpha) 는 노이즈‑어웨어 트레이닝을 통해 데이터 품질에 따라 동적으로 조정돼, 과도한 조기 종료와 과도한 연장을 모두 방지한다. 모델 전체는 다중 시나리오 셀프‑어텐션 인코더와 단계별 상태 표현을 갖는 디코더로 구성되며, 라우트 특성, 사용자 히스토리, 상황 컨텍스트를 모두 통합한다. 최적화 목표는 ( \max\theta (MRR + LCR - \alpha|Z|) ) 로, SCR은 MRR·LCR을, EOR은 (|Z|)를 직접 제어한다. 실험에서는 500K 쿼리·6M 라우트가 포함된 대규모 공개 데이터셋 두 개에서 기존 베이스라인(전통 파인‑랭킹+리‑랭킹, DSFNet 등)을 크게 앞섰으며, 특히 온라인 A/B 테스트에서 클릭‑스루율·경로 커버리지 모두 5~8% 상승을 기록했다. 또한 실제 내비게이션 서비스에 배포된 후, 사용자 이탈률 감소와 평균 여행 시간 절감 효과가 확인되었다. 한계점으로는 SCR 계산에 필요한 라우트 커버리지 라벨이 로그 기반으로 추정돼 노이즈에 민감할 수 있고, EOR 토큰 학습이 초기 단계에서 불안정할 가능성이 있다. 향후 연구에서는 강화학습 기반의 정책 최적화와 멀티‑모달 지도 데이터(교통 상황, 날씨) 통합을 통해 더욱 정교한 리스트 제어를 모색할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기