그림자 방법을 이용한 복잡한 가계도에서 질병 연관 유전자 탐색
초록
본 논문은 고밀도 SNP 마커를 활용해 복잡하고 불완전한 가계도에서도 질병 연관 유전자를 효율적으로 찾을 수 있는 “그림자(Shadow) 방법”을 제안한다. obligate 재조합 사건의 패턴을 분석해 통계적 P‑값을 부여하며, 유전형태, 관통도, 오진율 등에 대한 사전 가정이 필요하지 않다. 실제 100k SNP 칩 데이터를 이용한 신장질환 가계도 분석과 전통적인 LOD 점수와의 비교를 통해 방법의 유효성을 입증한다.
상세 분석
그림자 방법은 고밀도 SNP 마커가 제공하는 연속적인 유전 정보에서 “obligate meiotic recombination” 즉, 반드시 발생했어야 하는 재조합 사건을 추적한다. 각 개인의 유전형을 기준으로 부모‑자식 간에 발생 가능한 최소 재조합 수를 계산하고, 이를 전체 가계도에 걸쳐 누적해 “그림자”라는 스코어를 만든다. 이 스코어는 특정 유전자 좌위에서 질환을 가진 사람들 사이에 재조합이 억제되는 정도를 정량화한다.
핵심 알고리즘은 다음과 같다. 첫째, 모든 마커에 대해 각 개인의 유전형을 이진(AA/AB/BB) 형태로 정리하고, 결측치는 인접 마커의 상관성을 이용해 보간한다. 둘째, 질환 표현형을 가진 사람들과 비표현형자를 구분한 뒤, 질환자 간에 공유된 연속 구간을 탐색한다. 여기서 공유 구간은 “재조합이 일어나지 않은” 구간으로 정의되며, 그 길이가 길수록 해당 구간이 질병 유전자를 포함할 가능성이 높다. 셋째, 이러한 구간을 전체 마커에 걸쳐 슬라이딩 윈도우 방식으로 이동시키며, 각 윈도우에서 관측된 재조합 억제 정도를 통계적으로 평가한다.
통계적 유의성 검정은 두 가지 경로를 제공한다. 첫째, 이론적 이항 분포를 이용해 특정 윈도우에서 기대되는 재조합 횟수를 계산하고, 실제 관측값과의 차이를 Z‑점수로 변환한다. 둘째, 데이터 자체를 무작위 재배열(permutation)하여 경험적 P‑값을 추정한다. 특히, 불완전한 가계도(부모가 누락되거나 친자관계가 불명확한 경우)에서도 재조합 패턴만을 이용하므로 전통적인 파라메트릭 LOD 분석이 불가능한 상황에서도 적용 가능하다.
이 방법은 모드 오브 인헤리턴스, 관통도, 임상 오진율 등에 대한 사전 가정이 필요 없으며, 마커 밀도가 높을수록 재조합 억제 구간을 더 정밀하게 정의할 수 있다. 시뮬레이션 결과, 100k SNP 수준에서 평균 0.5 cM 이하의 구간을 정확히 식별했으며, 전통적인 LOD 분석 대비 동일한 표본 크기에서 약 20 % 높은 검출력을 보였다. 또한, 계산 복잡도는 O(N·M) (N: 개인 수, M: 마커 수) 수준으로, 현대 컴퓨팅 환경에서 수분 내에 전체 유전체를 분석할 수 있다.
하지만 몇 가지 제한점도 존재한다. 첫째, 매우 드문 변이나 복합형질에 대해서는 재조합 억제 신호가 약해 검출력이 떨어질 수 있다. 둘째, 마커 간 상관성이 높아질수록 보간 과정에서 인위적인 연속성이 도입될 위험이 있다. 셋째, P‑값 계산 시 permutation 횟수가 충분히 크지 않으면 과소평가될 가능성이 있다. 이러한 점들을 보완하기 위해 향후에는 가중치 기반 재조합 억제 스코어와 베이지안 프레임워크를 결합한 확장 모델이 제안될 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기