포아송 다변량 상호정보 추정과 인포메이션 플로우를 이용한 이산 이벤트 네트워크 추론

본 논문은 포아송 분포를 따르는 이산 시계열 데이터를 대상으로, 새로운 다변량 포아송 엔트로피 추정기를 개발하고 이를 기반으로 인과 엔트로피(CSE)와 최적 CSE(oCSE) 알고리즘을 적용해 네트워크 구조를 효율적으로 복원한다. 합성 데이터와 유방암 miRNA 카운트 데이터에 대한 실험 결과, 제안 방법이 기존 KNN 기반 추정기보다 높은 정확도와 낮은 샘플 요구량을 보이며 알려진 유전적 상호작용을 재현한다.

저자: Jeremie Fish, Jie Sun, Erik Bollt

본 논문은 이산형 카운트 데이터, 특히 유전자 발현과 같은 생물학적 시계열에 적합한 네트워크 추론 방법을 제시한다. 서론에서는 복잡계의 구조를 데이터 기반으로 복원하는 필요성을 강조하고, 기존의 Granger 인과성, 전이 엔트로피(TE), 그리고 인과 엔트로피(CSE)와 같은 정보 이론 기반 방법이 연속형 확률 과정에 최적화돼 있어 이산형 데이터에 적용하면 직접적인 추정이 어려움을 겪는다고 지적한다. 특히 KSG‑KNN 방식은 샘플 효율성이 낮아 데이터가 제한된 실험 환경에서 부적합하다. 이를 해결하기 위해 저자들은 다변량 포아송 모델을 도입한다. 단일 포아송 분포 p(k)=λ^k e^{-λ}/k! 를 다변량으로 확장해, 각 변수 X_i가 독립적인 포아송 변수 Y_ij의 선형 결합 X = B·Y 형태로 표현된다. 여기서 λ_ij는 Y_ij의 평균이며, 공분산 행렬은 λ_ij들의 합으로 간단히 계산된다. 모델의 주요 제한은 파라미터 수가 O(n^2)로 급증하고, 음의 공분산을 표현하지 못한다는 점이다. 다변량 포아송의 공동 엔트로피 H(X_1,…,X_n)를 무한 급수 형태로 전개하고, λ_ij가 충분히 작을 경우 (λ_ij ≪ λ_ii·λ_jj) 근사식 H≈∑_i H(X_i)+∑_{i

포아송 다변량 상호정보 추정과 인포메이션 플로우를 이용한 이산 이벤트 네트워크 추론

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기