관계 추론을 위한 행렬과 그래프 기법 중국 전기 데이터베이스 친족 사례

본 논문은 인물 전기 데이터베이스에 기록되지 않은 친족·친구 관계를 행렬 연산과 그래프 탐색으로 추론하는 방법을 제시한다. 중국 전기 데이터베이스(CBDB)를 실험 대상으로 삼아, 기본 관계(부·모·형제·배우자 등)를 인접 행렬로 표현하고, 행렬 곱과 전이 폐쇄 연산을 통해 2‑step·3‑step 관계를 도출한다. 또한, 그래프 기반 BFS와 최단 경로

관계 추론을 위한 행렬과 그래프 기법 중국 전기 데이터베이스 친족 사례

초록

본 논문은 인물 전기 데이터베이스에 기록되지 않은 친족·친구 관계를 행렬 연산과 그래프 탐색으로 추론하는 방법을 제시한다. 중국 전기 데이터베이스(CBDB)를 실험 대상으로 삼아, 기본 관계(부·모·형제·배우자 등)를 인접 행렬로 표현하고, 행렬 곱과 전이 폐쇄 연산을 통해 2‑step·3‑step 관계를 도출한다. 또한, 그래프 기반 BFS와 최단 경로 알고리즘을 활용해 관계 강도와 신뢰도를 평가한다. 실험 결과, 제안 기법이 기존 수작업 방식보다 높은 정확도와 확장성을 보이며, 숨겨진 사회 네트워크를 효과적으로 드러냄을 확인하였다.

상세 요약

이 연구는 관계 추론을 위한 두 가지 핵심 수학적 도구, 즉 인접 행렬의 전이 폐쇄(transitive closure)와 그래프 탐색 알고리즘을 결합한다. 먼저, CBDB에서 제공하는 기본 친족 관계(부, 모, 형제, 배우자 등)를 0‑1 인접 행렬 A에 매핑한다. A의 제곱 A²은 두 단계(예: 조부모‑자식) 관계를, A³은 세 단계(예: 증조부‑손) 관계를 나타내며, 이를 반복적으로 계산해 A* (전이 폐쇄)를 얻는다. 전이 폐쇄 행렬은 모든 가능한 혈연 경로를 포괄하므로, 직접 기록되지 않은 관계를 잠재적으로 복원할 수 있다. 그러나 행렬 연산만으로는 경로의 의미와 신뢰도를 구분하기 어렵다. 이를 보완하기 위해 논문은 가중 그래프를 구성한다. 각 기본 관계에 가중치(예: 부·모 1.0, 형제·자매 0.8, 배우자 0.9)를 부여하고, BFS와 다익스트라 알고리즘을 이용해 두 인물 사이의 최단 경로와 누적 가중치를 계산한다. 이 과정에서 경로 길이와 가중치의 곱을 ‘관계 강도’ 지표로 정의하여, 동일한 단계라도 문화적·사회적 의미가 다른 관계를 차별화한다. 또한, 행렬 연산과 그래프 탐색 결과를 교차 검증함으로써 오류를 최소화한다. 실험에서는 10,000명 이상의 인물을 대상으로, 알려진 관계와 비교했을 때 정밀도 0.92, 재현율 0.88을 달성했으며, 특히 2‑step 관계(예: 조부모‑손)에서 높은 정확도를 보였다. 이 결과는 행렬 기반 전이 폐쇄가 대규모 데이터에서 빠른 후보 관계 생성에 유리하고, 그래프 기반 가중 경로 분석이 관계의 질적 평가에 필수적임을 시사한다. 마지막으로, 연산 복잡도 분석을 통해 전이 폐쇄는 O(n³)에서 희소 행렬 최적화로 O(n·k²) 수준으로 감소시킬 수 있음을 보였으며, 그래프 탐색은 평균 O(m log n) 시간에 수행될 수 있음을 입증하였다. 이러한 이론적·실험적 결과는 전기 데이터베이스뿐 아니라 소셜 네트워크, 유전학 데이터 등 다양한 도메인에 적용 가능성을 열어준다.


📜 논문 원문 (영문)

🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...