실무자를 위한 엔터티 정합성 평가 가이드

본 논문은 엔터티 정합성(ER) 결과를 평가하기 위한 주요 메트릭을 정리하고, 각 메트릭의 특성과 사용 시 주의점을 실무자 관점에서 설명한다. 쌍 기반, 클러스터 기반, 엔트로피 기반, 그리고 편집 거리 기반 지표들을 비교 분석하고, 실제 적용 시 최소한 쌍 기반 F1과 하나의 클러스터 메트릭, 그리고 Generalized Merge Distance를 함께 사용할 것을 권고한다.

저자: Matt Barnes

본 논문은 엔터티 정합성(Entity Resolution, ER) 작업에서 결과를 평가하기 위한 다양한 지표들을 실무자가 이해하고 적용할 수 있도록 정리한다. 서론에서는 ER이 레코드 간 동일성을 판단하는 작업이며, 동일한 문제를 deduplication, record linkage 등 다양한 용어로 부른다는 점을 언급한다. ER 평가에 사용되는 메트릭은 크게 쌍 기반(pairwise), 클러스터 기반(cluster), 엔트로피 기반(entropy), 그리고 편집 거리 기반(edit distance)으로 구분된다. 쌍 기반 메트릭은 모든 레코드 쌍을 대상으로 정밀도(Precision), 재현율(Recall), 그리고 그 조화 평균인 F1을 계산한다. 수식은 전통적인 이진 분류와 동일하게 정의되며, 값은

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기