감독 학습 음이항 분류기를 활용한 확률적 레코드 연결 모델

본 논문은 레코드 연결 문제를 해결하기 위해 라벨이 있는 데이터와 베이지안 그래픽 모델을 결합한 새로운 감독 학습 음이항(Negative Binomial) 분류기를 제안한다. 각 필드의 오류율을 포아송-감마 혼합 모델로 표현하고, 감마 사전분포를 이용해 잠재 오류율을 추정한다. 추정된 사후 예측분포는 음이항 형태가 되며, 이를 통해 매칭 확률을 계산하고 임계값 기반 의사결정을 수행한다. 또한, 파라미터를 순차적으로 업데이트하는 능력으로 스트리밍…

저자: Harish Kashyap K, Kiran Byadarhaly, Saumya Shah

본 논문은 다양한 데이터베이스 간 레코드 매칭, 즉 레코드 연결(record linkage) 문제를 해결하기 위해 새로운 베이지안 그래픽 모델 기반 분류기를 제안한다. 기존의 Fellegi‑Sunter 방식은 매칭·비매칭 쌍에 대해 가중치를 선형적으로 결합하는데, 이는 실제 문자열 오류가 비선형적이고 필드마다 서로 다른 오류 특성을 가질 때 한계가 있다. 저자들은 이러한 문제를 해결하고자 각 필드별 오류를 포아송 분포로 모델링하고, 포아송 파라미터인 오류율 θ_i 를 감마 사전분포와 결합한다. 감마‑포아송 결합은 잘 알려진 음이항(Negative Binomial) 분포를 사후 예측분포로 만들어, 관측된 오류 카운트 x_i 에 대해 P(x_i|α_i,β_i)=NB(α_i,β_i) 형태의 확률을 제공한다. **모델 설계** 1. **데이터 표현**: 두 레코드 R_a와 R_b는 n개의 공통 필드 F_1…F_n 으로 표현된다. 각 필드에 대해 문자열 비교(예: edit distance)를 수행해 오류 카운트 x_i 를 얻는다. 2. **확률 모델**: 오류 카운트 x_i 는 포아송(θ_i) 로 가정하고, θ_i 는 감마(α_i,β_i) 사전분포를 갖는다. 이때 감마는 포아송의 conjugate prior 로, 베이지안 업데이트가 폐쇄형으로 가능하다. 3. **사후 예측**: θ_i 를 적분하면 음이항 분포가 도출된다. 즉, P(x_i|α_i,β_i)= (α_i+x_i‑1 choose x_i)·(β_i/(β_i+1))^{α_i}·(1/(β_i+1))^{x_i}. 4. **전체 매칭 확률**: 필드 독립성을 가정하면 전체 매칭 확률은 각 필드의 음이항 확률을 곱한 형태가 된다. 즉, P(match|X)=∏_{i=1}^n NB_i(x_i|α_i,β_i). **학습 및 추론** - **감독 학습**: 라벨이 있는 매칭·비매칭 쌍을 이용해 각 필드별 α_i, β_i 를 초기화한다. 저자는 방법 모멘트를 사용해 E

감독 학습 음이항 분류기를 활용한 확률적 레코드 연결 모델

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기