구조 가중 라쏘를 이용한 시계열 데이터 기반 네트워크 추론
초록
본 논문은 1차 벡터 자기회귀(VAR) 모델의 파라미터를 추정하기 위해 가중 라쏘(Weighted‑Lasso) 기법을 제안한다. 기존의 라쏘와 달리 사전 알려진 혹은 데이터에서 자동으로 도출된 네트워크 내부 구조를 가중치로 활용해 연결성에 대한 사전 정보를 반영한다. 합성 데이터와 실제 유전자 발현 시계열 데이터(효모 세포주기와 대장균 SOS 복구 네트워크)를 통해 구조 기반 페널티가 회귀계수 회복 정확도와 네트워크 재구성 성능을 크게 향상시킴을 입증한다.
상세 분석
이 연구는 유전자 발현 시계열 데이터를 기반으로 유전자 간 인과 관계를 추정하는 문제를 1차 벡터 자기회귀(VAR(1)) 모델로 정형화한다. VAR(1) 모델은 현재 시점의 발현값을 직전 시점의 발현값과 선형 결합으로 표현하며, 각 유전자의 발현 변화는 다른 모든 유전자의 과거 발현에 의해 영향을 받는다고 가정한다. 전통적인 라쏘(L1) 정규화는 모든 회귀계수에 동일한 페널티를 부과해 희소성을 유도하지만, 실제 생물학적 네트워크는 특정 서브구조(예: 모듈, 경로, 전사인자‑표적 관계)에서 연결성이 집중되는 경향이 있다. 이러한 사전 정보를 무시하면 중요한 연결을 과도하게 억제하거나, 잡음에 민감한 연결을 과대 평가하게 된다.
논문은 이 문제를 해결하기 위해 가중 라쏘(Weighted‑Lasso)를 도입한다. 가중치는 두 가지 경로으로 정의된다. 첫째, 외부 생물학적 지식(예: 전사인자 데이터베이스, ChIP‑seq 결과, 문헌 기반 상호작용)에서 얻은 네트워크 토폴로지를 이용해 각 잠재적 연결에 사전 확률을 할당한다. 둘째, 데이터 자체에서 구조를 추정하는 반복적 절차를 적용한다. 초기에는 일반 라쏘로 대략적인 네트워크를 얻고, 얻어진 연결 강도에 따라 가중치를 업데이트한다. 이 과정을 수렴할 때까지 반복함으로써, 모델은 점진적으로 사전 구조와 데이터 증거를 조화시킨다.
수학적으로는 목적함수를
\
댓글 및 학술 토론
Loading comments...
의견 남기기