인구구조 보정 다중표지자 라소 혼합 모델

초록

LMM‑Lasso는 랜덤 효과를 이용해 인구구조를 보정하고, L1 정규화를 통해 다중 SNP를 동시에 추정하는 혼합 모델이다. 튜닝 파라미터가 필요 없으며, 전장 유전체 데이터에 적용 가능하고, Arabidopsis와 마우스 데이터에서 기존 방법보다 높은 유전력과 후보 유전자 풍부성을 보였다.

상세 분석

LMM‑Lasso는 전통적인 선형 혼합 모델(LMM)의 구조에 라소(Lasso)와 동일한 L1 페널티를 결합한 새로운 통계 프레임워크이다. 기본 아이디어는 표현형 y를 고정 효과 β와 무작위 효과 u의 두 부분으로 분해하는데, 고정 효과는 선택된 다수의 SNP에 대한 가중치로 표현되고, 무작위 효과는 유전적 친연성(kinship) 행렬 K를 기반으로 한 공분산 구조 Σ = σ²_g K + σ²_e I 로 모델링한다. 여기서 K는 전체 유전체 SNP 데이터를 이용해 계산된 유사도 행렬이며, 인구구조와 같은 숨겨진 공통 요인을 자동으로 보정한다.

라소 페널티는 ‖β‖₁ ≤ λ 형태가 아니라, 베이지안 관점에서 라플라시안 사전으로 해석될 수 있는 형태로 도입되어, λ를 별도로 교차 검증으로 찾을 필요 없이 제한된 최대우도 추정(Maximum A Posteriori) 과정에서 자동으로 조정된다. 이는 기존 LMM 기반 GWAS에서 흔히 사용되는 REML 혹은 ML 추정에 비해 파라미터 튜닝 부담을 크게 낮춘다.

계산적으로는 변분 베이즈(VB) 혹은 좌표 하강법을 변형한 알고리즘을 사용해 β와 σ²_g, σ²_e를 교대로 업데이트한다. 무작위 효과의 공분산 행렬은 고유값 분해를 통해 차원 축소가 가능하므로, 전체 SNP 수가 수십만에 달하는 전장 유전체 데이터에서도 O(N p) 수준의 복잡도로 수렴한다. 또한, 라소가 자동으로 변수 선택을 수행하기 때문에, 다중 공통 변이(MAF)와 연관된 다중공선성 문제를 완화한다.

실험에서는 Arabidopsis thaliana와 Mus musculus 두 종의 공개 데이터셋을 대상으로 기존의 단일 마커 LMM, 일반 라소, 그리고 다중 마커 LMM(MLMM)과 비교하였다. LMM‑Lasso는 91 %의 표현형에서 설명 가능한 변이율(h²)을 기존 방법보다 평균 12 %p 상승시켰으며, 알려진 기능 유전자를 포함한 후보 유전자 집합에서의 풍부성(enrichment)도 유의하게 높았다. 특히, 인구구조가 강하게 나타나는 마우스 데이터에서 무작위 효과가 큰 비중을 차지했음에도 불구하고, 라소가 선택한 SNP들은 실제 기능 변이와 높은 일치를 보였다.

한계점으로는 라소가 선택한 변수의 해석이 복잡할 수 있고, 매우 희소한 변이(rare variants)에 대한 검출력은 제한적이라는 점이 있다. 또한, 무작위 효과의 공분산 구조를 단일 K 행렬에 의존하기 때문에, 복합적인 환경 요인이나 비선형 상호작용을 포착하는 데는 추가적인 확장이 필요하다. 향후 연구에서는 비선형 커널을 도입한 혼합 라소, 그리고 베이지안 스파스 프라이어를 결합한 확장 모델이 제안될 수 있다.