초고차원 데이터에서 비만 유전 변이 탐색을 위한 지식통합 분위수 회귀

초고차원 데이터에서 비만 유전 변이 탐색을 위한 지식통합 분위수 회귀
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 연구는 제한된 표본 크기와 50만 개가 넘는 SNP를 동시에 다루는 전통적 GWAS의 한계를 극복하고자, 기존 대규모 메타분석 결과를 사전 지식으로 활용한 Knowledge Integration Quantile Regression(KIQR) 모델을 제안한다. KIQR은 고위 BMI 분위수(예: 0.8, 0.9)를 목표로 변수 선택과 추정을 동시에 수행하며, SCAD 페널티와 Huber 손실 근사를 결합해 계산 효율성을 확보한다. Framingham Heart Study 데이터를 적용한 결과, 기존 GWAS에서는 발견되지 않은 TFAP2A(rs3798696), ITIH5(rs7070523), AIFM3(rs178260) 등 세 유전자를 신규 연관성으로 제시한다.

상세 분석

KIQR은 두 단계로 구성된다. 첫 단계에서는 기존 메타분석(GIANT, UK Biobank)에서 도출된 사전 SNP 집합 Sp를 비벌점 없이 포함한 penalized quantile regression을 수행해 사전 추정값 β̂p를 얻는다. 여기서 사용된 손실 함수는 전통적인 체크 손실(ρτ)이며, 변수 선택을 위해 SCAD(pλ) 페널티를 적용한다. 두 번째 단계에서는 관측된 BMI와 사전 예측값 xᵢᵀβ̂p 사이의 차이를 추가 손실 항으로 도입한다. 최종 목적함수는

Qλ,ζ(β)= (1−ζ)·(1/n)∑ρτ(yi−xᵢᵀβ)+ζ·(1/n)∑ρτ(xᵢᵀβ̂p−xᵢᵀβ)+∑pλ(|βj|)

이며, ζ∈


댓글 및 학술 토론

Loading comments...

의견 남기기