클릭 그래프 기반 쿼리 재작성과 Simrank++ 개선
초록
본 논문은 스폰서드 검색에서 사용자의 과거 클릭 데이터를 활용해 쿼리 재작성 후보를 생성하는 방법을 제안한다. 기존 SimRank가 클릭 그래프의 구조적 유사성을 충분히 반영하지 못한다는 문제점을 지적하고, 엣지 가중치와 “증거(evidence)”를 고려한 SimRank++ 두 변형을 설계한다. 실제 Yahoo! 클릭 그래프와 다양한 평가 지표를 통해 제안 기법이 기존 SimRank보다 더 많고 품질 높은 재작성 쿼리를 제공함을 입증한다.
상세 분석
이 논문은 스폰서드 검색 시스템에서 쿼리 재작성(query rewriting) 문제를 클릭 그래프(click graph)를 기반으로 접근한다는 점에서 기존 텍스트 기반 방법과 차별화된다. 클릭 그래프는 쿼리와 광고를 양측에 두고, 사용자가 특정 쿼리로 광고를 클릭한 기록을 엣지(weight) 형태로 저장한 이분 그래프이며, 각 엣지는 노출 횟수(impressions), 클릭 횟수, 위치 보정 클릭률(expected click‑through rate)이라는 세 가지 가중치를 가진다. 이러한 구조적 정보를 활용해 “두 쿼리가 동일한 광고를 클릭하게 될 확률”을 유사도 정의로 삼는다.
기존 SimRank는 “두 객체가 비슷하려면 그들이 연결된 이웃 객체들이 서로 비슷해야 한다”는 재귀적 정의를 바탕으로, 양쪽 타입(쿼리와 광고) 사이의 무작위 서퍼(random surfer) 모델을 이용해 유사도를 계산한다. 그러나 SimRank는 모든 이웃을 동일하게 취급하고, 엣지 가중치를 무시한다는 한계가 있다. 예를 들어, 한 쿼리와 여러 광고가 약하게 연결돼 있더라도, 동일한 광고를 여러 번 클릭한 경우와 동일한 가중치를 부여한다. 또한, “증거(evidence)”—즉, 두 쿼리가 직접적인 공통 광고가 없더라도, 중간에 다른 쿼리·광고를 통해 간접적으로 연결된 경우—를 정량화하지 못한다.
논문은 이러한 문제점을 보완하기 위해 두 가지 SimRank++ 변형을 제안한다. 첫 번째는 가중치 기반 SimRank(Weighted SimRank)로, 엣지의 클릭률과 노출 횟수를 확률적 전이 확률에 반영한다. 구체적으로, 각 이웃 광고에 대한 전이 확률을 단순히 1/degree가 아니라 해당 광고의 기대 클릭률에 비례하도록 조정함으로써, 실제 사용자 행동을 더 정확히 모델링한다. 두 번째는 증거 기반 SimRank(Evidence‑augmented SimRank)이다. 여기서는 두 쿼리 사이에 존재하는 모든 경로를 고려하고, 경로 길이에 따라 감쇠 계수를 적용한다. 짧은 경로일수록 높은 증거 가중치를 부여하고, 긴 경로는 감쇠시켜 간접적인 연관성을 적절히 반영한다. 이때 증거 가중치는 경로 상의 각 엣지 가중치의 곱으로 정의되어, 클릭 빈도가 높은 경로가 더 큰 영향을 미치게 된다.
실험에서는 Yahoo!에서 수집한 실제 클릭 그래프와 로그 데이터를 사용한다. 평가 지표는 (1) 재작성 쿼리의 수, (2) 인간 평가자에 의한 품질 점수, (3) 광고 클릭률 향상(CTR) 추정치 등이다. 결과는 Weighted SimRank와 Evidence‑augmented SimRank가 각각 단순 SimRank 대비 평균 15~25% 더 많은 유용한 재작성 쿼리를 생성했으며, 인간 평가에서 품질 점수도 유의하게 높았다. 특히 증거 기반 방법은 간접 연결이 많은 경우(예: “pc”와 “tv”처럼 2‑hop 이상)에도 의미 있는 유사도를 부여해, 기존 방법이 놓치던 재작성 후보를 회복한다.
이 논문은 클릭 그래프라는 실시간 사용자 행동 데이터를 구조적 유사도 모델에 효과적으로 통합함으로써, 스폰서드 검색에서 광고 매칭 효율을 크게 향상시킬 수 있음을 보여준다. 또한, SimRank의 확장 가능성을 입증함으로써, 다른 이분 그래프 기반 추천 시스템에도 적용 가능한 일반화된 프레임워크를 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기