정확한 추정기로 향상된 최소 해시와 b비트 최소 해시
초록
본 논문은 기존 최소 해시와 b비트 최소 해시에서 사용되는 단일 사건(해시값이 동일한 경우) 기반 추정기가 집합 크기가 다를 때 비효율적임을 지적한다. 세 가지 사건(동일, 작음, 큼)을 모두 이용한 다항식 모델을 도입하고, 최대우도추정(MLE)을 통해 교집합 크기와 포함도(Containment)를 보다 정확히 추정한다. 특히 저유사도·고포함 상황에서 분산이 수십 배까지 감소함을 이론과 실험으로 입증한다. 또한 b비트 해시에서는 전체 비트 매트릭스를 활용한 MLE를 제안해 저장 비용을 유지하면서 추정 정확도를 크게 향상시킨다.
상세 분석
논문은 먼저 전통적인 최소 해시 추정식 ˆR_M = (1/k)∑_{j=1}^k 1{min(π_j(S₁))=min(π_j(S₂))} 가 집합 크기 f₁, f₂가 동일할 때만 최적임을 보인다. 실제 데이터(예: 웹스팸)에서는 f₁/f₂ 비율이 0.2~0.5까지 넓게 퍼져 있어, 동일 사건만 이용하면 불필요한 분산이 발생한다. 이를 해결하기 위해 저자들은 세 가지 상호배타적 사건을 정의한다.
- P₌ = Pr(z₁ = z₂) = a/(f₁+f₂−a) = R
- P_< = Pr(z₁ < z₂) = (f₁−a)/(f₁+f₂−a)
- P_> = Pr(z₁ > z₂) = (f₂−a)/(f₁+f₂−a)
여기서 a = |S₁∩S₂|이며, 세 사건은 다항분포를 이룬다. 각 사건의 관측 횟수 k_=, k_<, k_>는 각각 기대값 k·P₌, k·P_<, k·P_>를 갖는다. 이를 이용해 교집합 크기 a에 대한 세 가지 무편향 추정량 ˆa_=, ˆa_<, ˆa_>를 도출하고, 각각의 분산식을 (13)–(15) 로 제시한다.
하지만 a를 사전에 알 수 없으므로, 전체 다항분포의 로그우도 L(a)=k_=logP₌+k_<logP_<+k_>logP_>를 미분해 0이 되는 â_MLE 를 구한다. 이 식은
k = f₁+f₂·a − k_<·(f₂/(f₁−a)) − k_>·(f₁/(f₂−a)) = 0
과 같이 정리되며, 대규모 k에 대해 편향이 0에 수렴한다. 분산은 (17)에서 제시된 바와 같이 기존 추정기보다 항상 작으며, 특히 f₂/f₁ < 0.5 이고 포함도 T = a/f₂ ≈ 1 일 때 100배까지 개선된다.
실험에서는 웹스팸 데이터와 실제 웹 크롤링 결과를 이용해 두 쌍의 단어 집합(A‑THE, THIS‑PERSON)을 대상으로 시뮬레이션을 수행하였다. MSE 결과는 â_MLE 가 â_= 에 비해 1~2 자릿수 낮은 값을 보였으며, 이론적 분산과도 일치했다.
b비트 최소 해시 부분에서는 기존 연구가 “동일 비트가 일치할 확률” P_b,= 만을 이용해 R을 추정했음에 반해, 저자들은 전체 2^b×2^b 비트 조합 확률 P_b,(t,d) 를 명시적으로 구한다. 여기서 t,d는 각각 S₁, S₂ 의 최소 해시값의 하위 b비트이다. 식 (19)–(21) 은 P_<, P_>, P_= 를 포함한 전체 확률을 r₁=f₁/D, r₂=f₂/D, s=a/D 로 표현한다.
이 다항모델에 대해 역시 MLE 를 적용할 수 있다. 저자들은 계산 복잡도를 고려해 다섯 단계의 추정기를 제안한다.
- ˆs_{b,f}: 전체 2^b·2^b 셀을 이용한 완전 MLE (가장 정확하지만 계산량 큼)
- ˆs_{b,do}: 대각선 2^b 셀과 두 개의 합계 셀(P_<, P_>)을 이용한 MLE
- ˆs_{b,d}: 대각선 2^b 셀만 이용한 MLE
- ˆs_{b,=}: P_b,= 만 이용한 기존 추정기
- ˆs_{b,≈}: P_b,= 와 P_<, P_> 를 합친 간소화 추정기
시뮬레이션 결과는 b=48 일 때 ˆs_{b,do} 가 ˆs_{b,=} 보다 평균 25배 낮은 분산을 보이며, 특히 저유사도 영역에서 차이가 크게 나타난다. 따라서 저장 비용은 그대로 유지하면서 추정 정확도를 크게 향상시킬 수 있다.
전체적으로 논문은 최소 해시와 b비트 최소 해시의 추정 문제를 “3‑cell multinomial” 로 재구성하고, MLE 를 통해 기존 방법보다 이론적·실험적으로 우수한 성능을 달성한다는 점에서 중요한 기여를 한다. 또한, 포함도 추정에 대한 명시적 논의를 통해 검색·데이터베이스·머신러닝 분야에서 저유사도·고포함 상황에 대한 새로운 솔루션을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기