희소 컨텍스트 트리를 이용한 계통 관계 탐지

본 논문은 단백질 서열을 Sparse Probabilistic Suffix Tree(SPST)로 모델링하고, 각 서열에서 추정된 희소 컨텍스트 트리의 구조적 차이를 정량화하는 β‑거리(dβ)를 정의한다. 구현된 Phyl‑SPST 패키지를 이용해 41개의 척추동물 글로빈 서열에 대해 거리 행렬을 계산하고, 이를 Neighbor‑Joining 및 Draw‑Gram 알고리즘에 적용해 계통수를 재구성한다. 결과는 전통적인 PAM 거리 기반 계통수와 유…

저자: Florencia Leonardi, Sergio R. Matioli, Hugo A. Armelin

희소 컨텍스트 트리를 이용한 계통 관계 탐지
본 논문은 단백질 서열 간 유사성을 평가하기 위해 Sparse Probabilistic Suffix Tree(SPST)라는 모델을 활용하고, 이 모델에서 추출된 희소 컨텍스트 트리의 구조적 차이를 정량화하는 새로운 거리 함수를 제안한다. SPST는 기존의 Variable Length Markov Chain(VLMC)을 일반화한 것으로, 각 심볼이 속할 수 있는 기호 집합의 부분집합을 컨텍스트로 정의한다. 이러한 컨텍스트들의 집합은 트리 형태로 표현되며, 각 컨텍스트는 트리의 한 경로를 이루어 앞선 심볼들의 집합적 조건을 나타낸다. 논문은 먼저 희소 컨텍스트 트리의 수학적 정의와 최소성 조건을 제시하고, 트리의 각 컨텍스트 w에 대해 길이 l(w)와 집합 크기의 곱 s(w)를 도입한다. 다음으로, 트리 전체에 대한 β‑엔트로피 H_β(τ)를 Rényi 엔트로피 개념을 빌려 정의한다. β가 1이 아닐 때는 H_β(τ)= (1/(2(1−β)))·∑_{w∈τ}

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기