D2 통계량의 정확도와 변동성: 근사 단어 매치의 새로운 해석
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.
초록
본 논문은 두 생물학적 서열 사이의 k‑길이 단어 매치 수를 나타내는 D2 통계량을 정확히 분석한다. 균등 문자 분포에서는 분산을 정확히 계산하고, 비균등 경우에는 효율적인 근사법을 제시한다. 또한 허용 오차를 둔 근사 단어 매치를 확장하여, 전사인자 결합 부위와 같은 조절 모듈 탐지에 높은 정확도를 보인다.
상세 분석
D2 통계량은 두 서열 A와 B에서 길이 k인 단어가 정확히 일치하는 횟수를 합산한 값으로, 전통적인 BLAST·BLAT와 같은 초기 검색 단계에서 핵심 역할을 한다. 기존 연구는 주로 기대값(E
댓글 및 학술 토론
Loading comments...
의견 남기기