다중 디바이스 사용자 매칭을 위한 신경망 기반 특징 앙상블 솔루션
본 논문은 CIKM 2016 컵에서 1위를 차지한 방법을 소개한다. 클릭스트림 로그를 이용해 사용자를 디바이스 간에 연결하는 문제를 후보 쌍 생성 → 신경망 기반 잠재 특징 추출 → XGBoost 기반 쌍별 분류 → 지도·비지도 클러스터 병합 추론으로 해결한다. 주요 기여는 URL 계층 구조를 활용한 Doc2Vec 모델과 거리 기반 특징을 결합한 비지도 특징 학습이며, 최종 F1 = 0.4204를 달성하였다.
저자: Minh C. Phan, Yi Tay, Tuan-Anh Nguyen Pham
본 논문은 CIKM 2016 컵에서 제시된 ‘Cross Device Matching for Online Advertising with Neural Feature Ensembles’의 1위 솔루션을 상세히 기술한다. 문제 정의는 다수의 디바이스에서 발생한 클릭스트림 로그를 바탕으로 동일 인물의 사용자 계정을 식별하는 것으로, 평가 지표는 F1 점수이다. 데이터셋은 506 136개의 훈련 쌍, 215 307개의 테스트 쌍, 66 808 490개의 클릭 이벤트 등 방대한 규모이며, 모든 텍스트는 MD5 해시 처리되어 있다.
### 1. 후보 생성 (Candidate Selection)
두 가지 접근을 병합한다.
- **TF‑IDF + k‑NN**: 각 사용자의 URL 경로를 토큰화(예: a/b/c →
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기