가족 DNA 검색을 위한 데이터베이스 사후확률과 친족 지수 통합 모델

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 DNA 데이터베이스에서 특정 친족을 찾는 ‘가족 검색(Familial Searching)’ 절차를 수학적으로 정형화한다. 각 데이터베이스 구성원에 대한 사전 친족 확률을 가정하고, 대상과의 친족 지수(Kinship Index)를 이용해 전체 데이터베이스를 고려한 사후 가능도 비(Likelihood Ratio)를 도출한다. 또한, 사후 확률을 계산하고, 상대를 포함할 확률이 사전에 정해진 임계값 이상이 되도록 데이터베이스 하위집합을 선택하는 두 가지 방법을 제시한다. 마지막으로 네덜란드 국가 DNA 데이터베이스 사례를 통해 이론을 실증한다.

상세 분석

논문은 먼저 ‘친족 지수(Kinship Index, KI)’를 전통적인 형사유전학에서 사용되는 Likelihood Ratio(LR)의 특수 형태로 정의한다. KI는 두 사람 사이에 가정된 친족관계(예: 형제, 사촌 등)와 무관계 가설 사이의 유전형 데이터 확률비이며, 기존 연구에서는 개별 쌍에 대해 독립적으로 계산되었다. 여기서는 데이터베이스 전체에 걸쳐 최대 하나의 진짜 친족만 존재한다는 가정을 추가한다. 이 가정 하에 각 피험자 i에 대한 사전 확률 π_i(친족일 확률)를 부여하고, 모든 i에 대해 KI_i를 구한다.

전체 데이터베이스를 하나의 복합 가설 집합으로 묶어, ‘데이터베이스 친족 가능도 비(LR_DB)’를 다음과 같이 도출한다.
LR_DB = Σ_i (π_i·KI_i) / Σ_i π_i .
분자에서는 각 피험자가 친족일 경우의 KI와 사전 확률을 가중합하고, 분모는 친족이 존재할 전체 사전 확률(즉, Σ_i π_i)이다. 이 식은 개별 KI를 단순히 비교하는 것이 아니라, 사전 확률 분포와 전체 데이터베이스 구조를 동시에 반영한다는 점에서 혁신적이다.

LR_DB를 이용해 베이즈 정리를 적용하면, 각 피험자 i에 대한 사후 확률 posterior_i는
posterior_i = (π_i·KI_i) / Σ_j (π_j·KI_j) .
이 식은 사전 확률과 KI가 동시에 고려된 정규화된 형태이며, 실제 수사 단계에서 ‘누가 가장 유력한 친족 후보인가’를 명확히 제시한다.

다음으로 논문은 두 가지 서브셋 선택 전략을 제시한다. 첫 번째는 사전 확률을 활용해 목표 친족이 포함될 최소 확률을 보장하는 최소 크기 서브셋을 찾는 최적화 문제로, 이는 NP‑hard이지만 그리디 알고리즘으로 근사한다. 두 번째는 사전 확률을 무시하고, KI 값만을 기준으로 상위 N명을 선택하는 단순한 방법이다. 전자는 정확한 사후 확률을 제공하지만 사전 정보에 크게 의존하고, 후자는 구현이 용이하지만 보장된 하한이 없다.

마지막으로 네덜란드 국가 DNA 데이터베이스(≈6백만 명) 사례를 통해, 실제 형사 사건에서 제시된 사전 확률(예: 인구통계학적 프로파일 기반)과 KI를 이용해 LR_DB와 posterior_i를 계산하였다. 결과는 기존의 ‘단일 KI 기준’ 검색보다 false positive율을 현저히 낮추면서도 true positive율을 유지함을 보여준다. 특히, 사전 확률을 반영한 서브셋 선택이 데이터베이스 규모가 클수록 효율성을 크게 향상시킨다.

이러한 수학적 프레임워크는 형사유전학에서 데이터베이스 규모와 사전 정보 활용 사이의 트레이드오프를 명확히 정량화하며, 정책 입안자와 현장 수사관이 합리적인 검색 전략을 설계하는 데 실질적인 도구를 제공한다.

가족 DNA 검색을 위한 데이터베이스 사후확률과 친족 지수 통합 모델

초록

상세 분석

댓글 및 학술 토론

의견 남기기