순서가 있는 파티션을 통한 확률 모델링과 학습 순위 적용

** 본 논문은 순위 데이터에 존재하는 동점(타이) 문제를 확률적 생성 모델로 해결한다. 파티션(동점 그룹)들의 순열을 전체 상태공간으로 두고, 이산 선택 이론에 기반한 단계별 부분집합 선택 과정을 통해 상태공간을 급격히 축소한다. 적절한 파라미터화와 효율적인 학습 알고리즘을 도입해 선형 시간 복잡도를 달성했으며, Yahoo! 랭킹 챌린지 데이터에서 기

순서가 있는 파티션을 통한 확률 모델링과 학습 순위 적용

초록

**
본 논문은 순위 데이터에 존재하는 동점(타이) 문제를 확률적 생성 모델로 해결한다. 파티션(동점 그룹)들의 순열을 전체 상태공간으로 두고, 이산 선택 이론에 기반한 단계별 부분집합 선택 과정을 통해 상태공간을 급격히 축소한다. 적절한 파라미터화와 효율적인 학습 알고리즘을 도입해 선형 시간 복잡도를 달성했으며, Yahoo! 랭킹 챌린지 데이터에서 기존 모델들과 경쟁력 있는 성능을 입증하였다.

**

상세 요약

**
이 논문은 “순위 데이터에 타이가 존재하는 경우”라는 실질적인 문제를 확률적 관점에서 새롭게 접근한다. 전통적인 순위 모델은 전체 순열을 직접 다루어야 하므로 n!개의 경우의 수가 발생하고, 타이가 포함되면 파티션의 수와 파티션 간 순서까지 고려해야 하므로 상태공간은 초지수적(super‑exponential)으로 급증한다. 저자들은 이를 “ordered partition”이라는 개념으로 정의하고, 각 파티션을 하나의 ‘선택 집합’으로 보아 단계별(discrete‑choice) 선택 과정을 적용한다. 즉, 첫 단계에서는 최상위 파티션을 선택하고, 그 다음 단계에서는 남은 아이템 중에서 두 번째 파티션을 선택하는 식이다. 이 과정은 ‘플러시’(Plackett‑Luce) 모델의 일반화라 할 수 있으며, 각 단계에서 선택 확률을 파라미터화된 점수 함수(예: 선형 결합)로 표현한다.

핵심적인 수학적 전개는 다음과 같다. 전체 아이템 집합을 (X)라 할 때, 파티션 (P_1, P_2, \dots, P_K)와 그 순서를 (\pi)로 나타낸다. 생성 확률은
\


📜 논문 원문 (영문)

🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...