관측되지 않은 변수와 희소 네트워크 추론 유전자 조절망 적용
초록
본 논문은 관측되지 않은 잠재 변수들이 관측 변수에 미치는 영향을 고려한 희소 네트워크 추론 방법인 RC‑web을 제안한다. 기존의 팩터 분석이 회전 불확정성에 머무는 문제를 해결하고, L0 정규화를 근사하는 새로운 SVD 기반 최적화 절차를 통해 네트워크 구조를 정확히 복원한다. 시뮬레이션 결과는 높은 희소도와 잡음 환경에서도 RC‑web이 기존 베이지안·MLE 기반 방법보다 우수함을 보여준다.
상세 분석
RC‑web은 관측 변수 집합 (x_N)와 잠재 변수 집합 (x_R) 사이의 선형 관계를 (G = RC + \Upsilon) 라는 행렬식으로 모델링한다. 여기서 (R\in\mathbb{R}^{M\times P}) 는 잠재 변수의 발현 행렬, (C\in\mathbb{R}^{P\times N}) 는 가중치(인접) 행렬이며, (C) 가 희소하다는 가정이 핵심이다. 전통적인 팩터 분석은 (RC) 분해가 직교 변환 (Q) 에 대해 무한히 많은 해를 갖기 때문에 구조적 해석이 불가능하다. RC‑web은 이 문제를 (L_0) 노름을 최소화하는 제약으로 전환하고, 직접적인 (L_0) 최적화가 NP‑hard인 점을 인식한다. 대신, 특이값 분해 (G = USV^{\top}) 에 가역 행렬 (B) 를 삽입해 (G = (US B^{-1})(B V^{\top})) 형태로 재구성한다. 여기서 (B) 는 (C) 의 희소성을 강제하는 파라미터이며, (B) 를 찾는 문제는 (\min_{B}|V B|_{0}) 이라는 새로운 형태로 변환된다.
알고리즘은 다음과 같이 진행된다. (1) 전체 (V) 의 가장 작은 특이값에 대응하는 오른쪽 특이벡터 (v_s) 를 초기값으로 사용한다. (2) 현재 (V) 에서 영벡터가 되는 행(관측 변수)을 찾아 (\omega_0) 집합에서 제거하고, 해당 행을 (\omega_{-}) 집합에 추가한다. (3) 행이 제거된 (V_{\omega_0}) 에 대해 역행렬 (K^{-1}{\omega_0} = (V{\omega_0}^{\top}V_{\omega_0})^{-1}) 를 업데이트하고, 가장 큰 고유값을 갖는 고유벡터를 새 (b_i) 로 설정한다. (4) 위 과정을 (b_i) 가 수렴하거나 (V_{\omega_0}) 가 영특이값을 가질 때까지 반복한다. 각 (b_i) 는 (B) 의 열이 되며, 최종적으로 (\hat R = US\hat B^{-1}), (\hat C = (\hat B V)^{\top}) 를 얻는다.
핵심적인 수학적 통찰은 “희소성을 달성하기 위해 최소한의 행만 제거하면 충분하다”는 점이다. 행을 제거할 때는 해당 행의 좌측 특이벡터(ellipsoid의 축) 중 절대값이 가장 큰 성분을 선택함으로써, 가장 작은 투영을 빠르게 0에 가깝게 만든다. 이 과정은 최악의 경우 (N-P+1) 단계 이내에 종료되며, 실제 데이터에서는 훨씬 적은 단계로 수렴한다. 또한, 모든 연산은 (P) 차원 공간에서 수행되므로 메모리와 계산량이 (O(P^2 N)) 이하로 억제된다.
실험에서는 Erdős‑Rényi와 scale‑free 두 종류의 이분 그래프를 생성하고, (P/N) 비율을 0.5~2까지 변화시켰다. 잡음 수준을 조절한 뒤, RC‑web은 (L_0) 정확도, 정밀도, 재현율 측면에서 Bayesian Sparse Matrix Factorization(PSMF), Bayesian Factor Regression Model(BFRM), 최대우도 기반 sparse PCA(emPCA), K‑SVD와 비교해 일관되게 우수한 성능을 보였다. 특히, 희소도가 50 % 이하(즉, 거의 완전 연결)인 경우에도 구조를 정확히 복원했으며, 잡음이 10 % 수준까지 증가해도 성능 저하가 완만했다.
제한점으로는(1) (C) 의 스케일과 순열에 대한 불변성으로 인해 실제 생물학적 인자와 직접 매핑하기 위해서는 별도의 교란 실험이나 사전 지식이 필요하고, (2) 데이터가 매우 조밀하거나 특이값 구조가 비정상적인 경우 초기 (v_s) 근사가 부정확해질 수 있다. 그러나 저자는 이러한 경우에도 (B) 를 찾는 과정이 여전히 수렴한다는 이론적 근거와 실험적 증거를 제시한다.
전반적으로 RC‑web은 “희소성 + 가역 행렬 삽입”이라는 새로운 아이디어를 통해 팩터 분석의 회전 불확정성을 해소하고, 대규모 유전자 조절망 같은 실제 바이오인포매틱스 문제에 적용 가능한 효율적이고 정확한 네트워크 추론 프레임워크를 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기