포지션 바이어스 제거를 위한 제어함수 기반 학습‑순위 기법

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 클릭 로그에 내재된 포지션 바이어스를 제어함수(control function) 접근법으로 보정한다. 두 단계 모델을 제안하는데, 첫 단계에서 기존 랭킹 정책의 잔차를 추정하고, 두 번째 단계에서 이 잔차와 특성 상호작용을 클릭 모델에 포함시켜 편향을 제거한다. 클릭·프롭시티 모델을 사전에 가정하지 않으며, 비선형 랭킹 모델에도 적용 가능하고, 검증 단계에서도 편향된 클릭을 보정해 하이퍼파라미터 튜닝을 지원한다. 실험 결과, 기존 최첨단 방법들을 능가한다는 점을 입증한다.

상세 분석

이 논문은 포지션 바이어스라는 대표적인 클릭 편향 문제를 경제학에서 사용되는 제어함수(control‑function) 기법으로 해결한다는 점에서 혁신적이다. 기존 방법들은 크게 클릭 모델, 프롭시티 기반(IPW) 방법, 그리고 Heckman‑type 선택 모델로 나뉘는데, 각각이 클릭 행동에 대한 강한 가정(예: 사용자가 순차적으로 검토한다는 가정, 프롭시티를 정확히 추정해야 한다는 가정) 혹은 선형성 제약을 가진다. 저자들은 “잔차(residual) → 외생 변량(exogenous variation)”이라는 아이디어를 도입한다. 구체적으로, 첫 단계에서는 과거 랭킹 정책 π가 생성한 아이템 위치 r(y|πq)를 관측 특성 x_yq에 대한 함수 m(x_yq)와 잔차 ε_yq,m으로 분해한다. 여기서 m은 선형·비선형 어떤 지도학습 모델이라도 사용 가능하므로 고차원 특성 상호작용과 정규화를 적용해 과적합을 방지한다. 잔차 ˆε는 특성에 대해 평균 독립(mean‑independent)하도록 설계되어, 두 번째 단계의 클릭 방정식에 포함시키면 위치와 클릭 사이의 내생성(endogeneity)을 제거한다.

두 번째 단계에서는 클릭 모델 C_yq = I

포지션 바이어스 제거를 위한 제어함수 기반 학습‑순위 기법

초록

상세 분석

댓글 및 학술 토론

의견 남기기