변환된 표현형의 유전 분석
초록
본 연구는 선형 혼합 모델(LMM)의 잔차 정규성 가정을 완화하기 위해, 관측된 표현형 데이터에서 최적의 비선형 변환을 자동으로 추정하는 방법을 제안한다. 시뮬레이션 및 인간·마우스·효모 데이터에 적용한 결과, 변환된 표현형을 이용할 경우 GWAS의 검출력, 유전율 추정 정확도, 그리고 표현형 예측 성능이 현저히 향상됨을 확인하였다.
상세 분석
선형 혼합 모델은 유전형-표현형 연관 분석에서 표준적인 통계 프레임워크로, 고정 효과와 무작위 효과를 동시에 모델링함으로써 복잡한 계통 구조와 환경 요인을 제어한다. 그러나 LMM은 잔차가 정규분포를 따른다는 강력한 가정을 전제로 하는데, 실제 생물학적 데이터는 종종 비대칭, 중첩, 혹은 중대한 꼬리(heavy‑tail)를 보이며 이 가정을 위배한다. 전통적으로 연구자들은 로그, 제곱근, 박스‑코크스(Box‑Cox) 변환 등 사전 정의된 비선형 변환을 적용해 정규성을 강제한다. 그러나 변환 선택은 경험에 의존하고, 변환 파라미터를 임의로 설정하면 통계적 효율성이 크게 감소한다는 문제가 있다.
본 논문은 이러한 한계를 극복하기 위해, LMM의 로그우도에 변환 파라미터를 포함하는 확률적 모델을 구축한다. 구체적으로, 관측된 표현형 y를 단조 증가 함수 fθ(·) 로 변환하고, 변환된 값 z = fθ(y)를 기존 LMM에 투입한다. 여기서 fθ는 파라미터 θ에 따라 형태가 달라지는 유연한 함수군(예: 파워 변환, 스플라인 기반 변환)이며, θ는 최대우도 추정(MLE) 혹은 베이지안 사후분포 추정을 통해 데이터에 최적화된다. 변환 함수와 LMM 파라미터(유전 변이성 σg², 환경 변이성 σe² 등)를 동시에 추정함으로써, 변환 과정에서 발생하는 불확실성을 모델에 내재화한다.
알고리즘적으로는 기대값 최대화(EM) 혹은 변분 베이지안(VB) 절차를 이용해 반복적으로 θ와 LMM 파라미터를 업데이트한다. 각 반복 단계에서 변환된 데이터에 대한 잔차 정규성을 검증하고, 필요 시 변환 함수의 복잡도를 조절한다(예: 스플라인 노드 수 조정). 이렇게 하면 과적합을 방지하면서도 데이터에 가장 적합한 변환을 자동으로 찾을 수 있다.
시뮬레이션에서는 다양한 비정규 분포(지수, 감마, 로그정규 등)를 갖는 가상 표현형을 생성하고, 제안된 방법이 기존 고정 변환(로그, 제곱근)보다 유의미하게 높은 검정력과 정확한 유전율 추정을 제공함을 보였다. 실제 데이터 적용에서는 인간 GWAS(UK Biobank), 마우스 행동 표현형, 효모 성장 속도 데이터를 사용했으며, 변환 최적화 후 발견된 유전적 연관 신호는 기존 분석에서 놓쳤던 미세 효과를 포착했다. 또한, 변환된 표현형을 이용한 베이지안 리스크 예측 모델은 교차 검증에서 평균 제곱 오차가 10~15% 감소하였다.
이 연구는 LMM 기반 유전 분석에서 변환 선택을 주관적 판단이 아닌 데이터 주도적 추정으로 전환함으로써, 분석 재현성 및 통계적 효율성을 크게 향상시킨다. 향후 다중 표현형(multi‑trait) 분석, 유전체 예측(Genomic Prediction), 그리고 비정규성 강한 환경 요인 모델링 등에 확장 가능성이 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기