편향된 쌍 샘플링을 통한 연관성 탐색 및 유사도 계산

본 논문은 거래 데이터에서 아이템 쌍의 유사도와 연관 규칙을 효율적으로 찾기 위해, 다양한 유사도·신뢰도 측정에 적용 가능한 편향된 샘플링 기법을 제안한다. 이 방법은 평균 유사도·신뢰도가 낮은 경우에도 정확한 카운팅 없이 높은 품질의 결과를 제공하며, 특히 아이템 수가 많은 트랜잭션에서 계산량과 메모리 사용을 크게 절감한다. 실험 결과는 기존 정확 카운팅 기반 알고리즘 대비 10배 이상 빠른 수행 속도를 확인한다.

저자: Andrea Campagna, Rasmus Pagh

본 논문은 “Finding Associations and Computing Similarity via Biased Pair Sampling”이라는 제목 아래, 대규모 거래 데이터에서 아이템 쌍 간의 유사도와 연관 규칙을 효율적으로 탐색하기 위한 새로운 확률적 방법론을 제시한다. 기존의 연관 규칙 마이닝 기법은 주로 Apriori, Eclat 등과 같이 모든 후보 쌍을 정확히 카운트하는 방식에 의존한다. 이러한 정확 카운팅은 아이템 수가 많고 트랜잭션당 평균 아이템 수가 클수록 계산 복잡도가 급격히 상승해 실시간 혹은 대규모 분석에 부적합해진다. 특히 저지원도 아이템을 포함한 희소한 패턴을 탐색하거나, 코사인 유사도, 자카드 지수, 피어슨 상관계수 등 다양한 유사도 함수를 적용하고자 할 때, 정확한 빈도 집계는 거의 불가능에 가깝다. 이에 저자들은 “편향된 쌍 샘플링(Biased Pair Sampling)”이라는 새로운 프레임워크를 고안한다. 핵심 아이디어는 트랜잭션 내 모든 아이템 쌍을 무작위로 선택하는 것이 아니라, 각 아이템의 개별 지원도와 사용자가 지정한 유사도 임계값 τ에 따라 선택 확률을 조정하는 것이다. 구체적으로, 아이템 i와 j의 지원도를 s_i, s_j라 할 때, 해당 쌍이 선택될 확률 p_{ij}는 (τ·N)/(s_i·s_j) 형태로 정의된다(N은 전체 트랜잭션 수). 이 확률이 1을 초과하면 해당 쌍은 반드시 선택한다는 의미이며, 1 이하인 경우에는 베르누이 시도에 의해 선택 여부가 결정된다. 이렇게 하면 기대값 E

편향된 쌍 샘플링을 통한 연관성 탐색 및 유사도 계산

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기