유전 다형성 연구를 위한 종단 가족 데이터 베이지안 잠재 변수 모델링

초록

본 논문은 연속형 및 이진형 표현형을 동시에 분석할 수 있는 베이지안 잠재 변수 모델을 제안한다. 종단적 측정과 가계 구조를 고려한 상관 구조를 통합하고, 계층적 중심화와 파라미터 확장을 이용한 효율적인 MCMC 알고리즘을 개발하였다. 모델 선택은 베이지안 팩터와 스파이크‑슬랩 사전으로 수행했으며, 시뮬레이션과 제1형 당뇨 합병증 GWAS 적용을 통해 실용성을 검증하였다.

상세 분석

이 연구는 유전학에서 다형성(pleiotropy) 현상을 탐구하기 위해 복수의 표현형을 동시에 모델링하는 새로운 베이지안 프레임워크를 제시한다. 핵심 아이디어는 관측된 여러 표현형을 하나의 잠재 변수(Latent Variable, LV)로 연결함으로써 공통된 유전적 요인을 추정하는 것이다. LV는 연속형과 이진형 두 종류의 관측값을 모두 수용하도록 설계되었으며, 각각은 일반화 선형 모델(GLM) 형태로 LV와 연결된다. 연속형 표현형은 정규분포, 이진형 표현형은 로짓 링크를 갖는 베르누이 분포를 사용한다.

시간에 따라 반복 측정된 데이터와 가계 구조를 동시에 반영하기 위해 두 단계의 상관 구조를 도입한다. 첫 번째는 개인 내 시간적 상관을 포착하는 AR(1) 혹은 무작위 효과 구조이며, 두 번째는 동일 가계 내 구성원 간의 유전적·환경적 상관을 나타내는 가족 효과이다. 이러한 복합 상관 구조는 전통적인 혼합 모델에서는 파라미터 식별이 어려운 문제를 야기하지만, 베이지안 접근법과 적절한 사전분포 설정을 통해 해결한다.

추정 단계에서는 계층적 중심화(Hierarchical Centering)와 파라미터 확장(Parameter Expansion, PX) 기법을 결합한 MCMC 알고리즘을 설계하였다. 계층적 중심화는 고차원 랜덤 효과의 사후 분포를 더 집중시키고, PX는 비식별 파라미터를 도입해 샘플링 효율을 크게 향상시킨다. 구체적으로, LV와 각 표현형의 회귀계수를 재파라미터화하고, 확장된 스케일 파라미터를 도입해 Gibbs 샘플링이 가능한 조건부 분포를 얻는다. 이 과정에서 메트로폴리스-헤이스팅스 단계는 최소화되며, 수천 개의 반복에서도 수렴 속도가 빠른 것이 실험적으로 확인된다.

모델 선택은 두 가지 베이지안 전략으로 수행된다. 첫 번째는 베이지안 팩터(Bayes Factor)를 이용해 LV와 특정 유전 변이 사이의 연관성을 검정하는 방법이며, 사전-후행 확률비를 통해 강력한 증거를 제공한다. 두 번째는 스파이크‑슬랩 사전(spike‑and‑slab prior)을 적용해 회귀계수의 영(0) 여부를 직접 추정한다. 스파이크 성분은 0에 강하게 집중된 사전이며, 슬랩 성분은 넓은 분산을 갖는 연속 사전으로, 변수 선택과 불확실성 정량화를 동시에 가능하게 한다. 시뮬레이션 결과, 두 방법 모두 높은 검출력과 낮은 위양성률을 보였으며, 특히 스파이크‑슬랩은 작은 효과 크기에서도 안정적인 선택을 수행했다.

실제 데이터 적용에서는 제1형 당뇨병 환자들의 여러 합병증(신장, 망막, 신경계 등)과 관련된 GWAS 데이터를 사용하였다. LV는 다중 합병증 위험을 요약했으며, 기존 단일 표현형 분석에서는 놓쳤던 몇몇 유전 변이가 LV와 강하게 연관된 것으로 나타났다. 이는 다형성 유전자를 탐지하는 데 잠재 변수 접근법이 유리함을 실증적으로 보여준다.

전반적으로 이 논문은 복합 표현형 데이터를 통합적으로 분석할 수 있는 통계적 도구를 제공함과 동시에, 효율적인 베이지안 추정 알고리즘과 실용적인 변수 선택 방법을 제시한다. 향후 대규모 유전체 데이터와 전자건강기록(EHR) 연계 연구에 적용될 가능성이 크다.