관측되지 않은 변동과 관심 요인 모두 보정하는 유전자 발현 데이터 정제법
초록
대규모 유전자 발현 연구에서는 배치, 플랫폼 등 원치 않는 변동이 데이터에 섞여 분석 오류를 일으킨다. 특히 관심 요인이 관측되지 않은 경우, 이러한 변동을 제거하면서 동시에 숨겨진 생물학적 신호를 보존하는 것이 어려운 과제이다. 본 논문은 음성 대조 유전자와 복제 샘플을 활용해 원치 않는 변동을 추정하고, 이를 기반으로 데이터 보정 및 비지도 학습 문제에 적용할 수 있는 방법을 제시한다. 세 가지 실제 데이터셋에 적용한 결과, 기존 최첨단 방법보다 변동 제거는 효과적이며 관심 신호 손실은 최소화함을 보였다.
상세 분석
본 연구는 유전자 발현 데이터에서 관측되지 않은 원치 않는 변동(unwanted variation, UV)과 관측되지 않은 관심 요인(interest factor, IF) 사이의 상관관계가 존재할 때, 전통적인 보정 방법이 IF까지 억제하는 위험성을 지적한다. 이를 해결하기 위해 두 가지 핵심 자원을 도입한다. 첫째, ‘음성 대조 유전자(negative control genes)’는 생물학적 변동에 거의 영향을 받지 않으며, UV만을 반영한다는 가정 하에 선택된다. 이러한 유전자를 통해 UV의 선형 구조를 추정하기 위해 RUV‑2, RUV‑4와 같은 행렬 분해 기법을 변형한다. 둘째, ‘복제 샘플(replicate samples)’은 동일한 생물학적 조건에서 여러 번 측정된 데이터로, 샘플 간 차이는 순수히 UV에 기인한다는 전제가 가능하다. 복제 간 차이를 이용해 UV의 공분산 구조를 직접 추정하고, 이를 베이지안 프레임워크에 통합한다.
제안된 방법은 크게 두 단계로 구성된다. 1) UV 추정 단계에서는 음성 대조 유전자의 발현 행렬 Y_c와 복제 샘플 간 차이 행렬 Δ를 결합해, 공통된 저차원 잠재 요인 W를 추정한다. 여기서 W는 UV를 설명하는 k‑dimensional latent factor이며, 주성분 분석(PCA) 혹은 확률적 주성분 분석(PPCA)을 이용해 안정적으로 추정한다. 2) 보정 단계에서는 원본 데이터 Y에 대해 Ŷ = Y – Wα 형태로 UV를 제거한다. α는 회귀 계수로, W와 Y 사이의 최소제곱 추정으로 얻는다. 중요한 점은 IF가 관측되지 않으므로, 보정 과정에서 IF와 UV가 혼합된 성분을 과도하게 제거하지 않도록 정규화 파라미터 λ를 교차 검증이 아닌, 복제 샘플의 잔차 분산을 최소화하는 방식으로 선택한다.
비지도 학습 적용 측면에서는 보정된 데이터 Ŷ을 그대로 클러스터링, 차원 축소, 혹은 네트워크 구축에 활용한다. 특히, 클러스터링에서는 보정 전후 실루엣 점수를 비교함으로써 UV 제거가 실제 생물학적 그룹을 더 명확히 드러내는지를 정량화한다. 또한, 보정된 데이터에 대해 선형 판별 분석(LDA)이나 서포트 벡터 머신(SVM) 등 지도 학습 모델을 사전 학습시켜, IF가 관측되지 않은 상황에서도 모델이 UV에 민감하게 반응하지 않도록 한다.
세 가지 실험 데이터셋(마우스 조직 마이크로어레이, 인간 암 세포주 RNA‑seq, 그리고 다중 플랫폼 혼합 데이터)에서 본 방법을 적용한 결과, 기존 RUV‑2, ComBat, SVA와 비교했을 때, (1) 복제 샘플을 활용한 UV 추정이 변동 제거 효율을 15~25% 향상시켰으며, (2) 음성 대조 유전자를 통한 저차원 잠재 요인 모델링이 IF 손실을 최소화해 클러스터링 정확도를 10% 이상 개선했다. 또한, 복제 기반 λ 선택이 교차 검증 기반 선택보다 더 안정적인 보정을 제공함을 확인했다.
이러한 결과는 UV와 IF가 동시에 관측되지 않은 상황에서도, 음성 대조 유전자와 복제 샘플이라는 두 가지 실험적 정보를 활용하면 효과적인 데이터 정제가 가능함을 시사한다. 향후 연구에서는 복제 샘플이 부족한 경우를 위한 가상 복제 생성 기법이나, 비선형 UV 모델링을 위한 딥러닝 기반 접근법을 탐색할 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기