스키마 무관 진전형 엔티티 해결(확장판)
읽는 시간: 3 분
...
📝 원문 정보
- Title: Schema-agnostic Progressive Entity Resolution (extended version)
- ArXiv ID: 1905.06385
- 발행일: 2019-05-17
- 저자: Giovanni Simonini, George Papadakis, Themis Palpanas, and Sonia Bergamaschi
📝 초록 (Abstract)
엔터티 해석(ER)은 같은 실제 세계의 엔터티에 해당하는 엔터티 프로필을 찾는 작업입니다. 진행형 ER는 제한된 시간과/또는 계산 자원이 있을 때 대규모 데이터셋을 효율적으로 해결하려는 목표를 가지고 있습니다. 실무에서는 최적의 비교 순서를 근사하여 가장 우수한 부분 해답을 제공하는 것을 목표로 합니다. 현재까지, 진행형 ER는 구조화된(관계형) 데이터 소스에서만 검토되어 왔습니다. 기존 방법은 스키마 지식을 활용하여 비필요한 비교를 줄이는 데 의존하므로, 유사 엔터티의 탐색 공간을 제한합니다. 그 결과 이러한 솔루션들은 관계형 및 RDF 데이터베이스, JSON 파일, 웹 코퍼스 등 다양한 스키마와 함께 사용되는 대규모 이질적인 데이터셋을 통합하는 데 적용하기 어렵습니다. 이러한 간극을 메우기 위해, 우리는 스키마에 무관한 진행형 ER 방법론의 일가족을 제안합니다. 이는 스키마 정보를 요구하지 않으므로 어떠한 종류의 스키마에서도 적용이 가능합니다. 먼저, 두 가지 간단한 스키마에 무관한 방법들을 소개하고 이를 통해 직관적인 솔루션들이 대용량 데이터로 확장하기 어렵다는 것을 보여줍니다. 그런 다음, 네 가지 다소 복잡한 방법론을 제안합니다. 실제 7개의 실세계 데이터셋에서 진행된 광범위한 실험 평가를 통해 모든 고급 방법들이 간단한 방법들과 최신 상태의 스키마 기반 방법들보다 크게 우수하다는 것을 보여줍니다. 또한, 고급 방법들의 상대적인 성능을 조사하여 선택 가이드라인도 제공합니다.💡 논문 핵심 해설 (Deep Analysis)
This paper explores efficient methods for Entity Resolution (ER) on large datasets, focusing particularly on integrating various types of data without relying on schema information. Traditional Progressive ER methods are effective in structured databases but struggle with the heterogeneity and scale of modern Big Data applications. The authors propose a suite of schema-agnostic Progressive ER techniques that can handle different types of data sources. By initially presenting naive approaches and demonstrating their limitations, they then introduce four advanced methods that optimize the order of entity profile comparisons. Through extensive testing on seven real-world datasets, these advanced methods outperform both naive and state-of-the-art schema-based approaches. This work is significant as it provides a new approach for integrating diverse data types effectively, which is crucial in today's Big Data landscape.📄 논문 본문 발췌 (Translation)
Reference
이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다.
저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.