k‑워드 매치의 경험적 분포와 D₂ 통계 활용

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 정렬‑프리 서열 비교 방법인 D₂ 통계(두 서열 사이의 길이 k 워드 일치 개수)의 실제 분포를 실험적으로 조사하고, 평균·분산을 이용한 정규분포와 감마분포 근사식을 제시한다. 특히 중간 길이(≈800 bp) 서열에서 5 %~0.1 % 수준의 유의수준을 정확히 추정할 수 있음을 보이며, 긴 서열에서는 정규근사가 충분히 정확함을 확인한다.

상세 분석

이 연구는 기존에 주로 비대칭적 한계분포(정규분포 혹은 복합 포아송)만을 다루던 D₂ 통계의 실용적 적용에 필요한 ‘중간 규모’ 파라미터 영역을 메우는 데 초점을 맞춘다. 먼저 저자들은 두 서열 A와 B를 i.i.d. 베르누이 텍스트로 가정하고, k‑워드 일치 지표 Yᵢⱼ를 정의한 뒤 D₂ = Σᵢⱼ Yᵢⱼ 로 표현한다. 평균은 E

k‑워드 매치의 경험적 분포와 D₂ 통계 활용

초록

상세 분석

댓글 및 학술 토론

의견 남기기