자동 적응형 동역학 모델링으로 복잡 생물 시스템 예측하기
본 논문은 제한된 실험 데이터와 관측되지 않은 변수들에도 불구하고, 시스템 생물학에서의 복잡한 네트워크 동역학을 현상학적·코스그레인 모델로 자동 적응적으로 추정하는 방법을 제시한다. 모델 계층을 중첩·완전하게 설계하고 베이지안 정보 기준을 확장해 로그우도(L)로 모델 선택을 수행한다. S‑system과 시그모이드 연속시간 네트워크 두 가지 계층을 구현한 소프트웨어 “Sir Isaac”를 통해 천체역학, 다중 부위 인산화, 효모 당분해 등 다양한…
저자: Bryan C. Daniels, Ilya Nemenman
본 논문은 시스템 생물학에서 흔히 마주치는 “데이터는 제한적이고, 변수는 많으며, 많은 파라미터가 미지수”라는 상황을 해결하기 위해, 현상학적·코스그레인 동역학 모델을 자동으로 생성하고 적응시키는 새로운 방법론을 제시한다. 저자들은 먼저 모델 탐색 공간을 “중첩(nested)·완전(complete)”이라는 두 가지 수학적 속성을 만족하도록 설계한다. 중첩성은 모델이 복잡해질수록 이전 모델을 포함하도록 순차적으로 확장될 수 있음을 의미하고, 완전성은 충분히 많은 숨은 변수와 비선형 항을 포함하면 임의의 부드러운 동역학을 근사할 수 있음을 보장한다. 이러한 설계는 베이지안 통계에서 모델 선택이 전역 최적을 찾을 수 있게 하는 이론적 기반을 제공한다.
구현된 두 가지 모델 계층은 (1) S‑system 계층과 (2) 연속시간 시그모이드 네트워크 계층이다. S‑system은 각 변수의 생산·소멸 항을 변수들의 거듭제곱 곱 형태로 표현하며, 전통적인 질량작용 법칙을 일반화한다. 시그모이드 네트워크는 변수 간 상호작용을 포화형 시그모이드 함수와 선형 결합으로 기술한다. 두 계층 모두 비선형 차수와 숨은 변수 수를 단계적으로 늘려가며 모델을 확장한다. 각 단계에서 파라미터는 최적화 알고리즘(예: Levenberg‑Marquardt)으로 추정되고, 모델의 베이지안 로그우도 Ł이 계산된다. Ł은 일반화된 베이지안 정보 기준(BIC)을 기반으로 하며, 모델 복잡도에 대한 페널티를 포함한다. 모델을 순차적으로 평가하면서 Ł이 상승하다가 피크에 도달하고 다시 감소하면 과적합이 시작된 것으로 판단하고 탐색을 중단한다. 이렇게 선택된 모델은 데이터 양에 맞춰 최소한의 자유도로 구성되며, 필요 시 복잡도를 점진적으로 증가시켜 더 정교한 동역학을 포착한다.
세 가지 실험적 사례를 통해 방법의 효용성을 검증한다. 첫 번째 사례는 뉴턴 중력 법칙을 거리‑시간 데이터만으로 추정하는 것이다. S‑system 계층을 이용해 숨은 변수(속도)를 자동으로 도입하고, 타원·포물선·쌍곡선 궤적을 모두 포괄하는 단일 동역학 모델을 복원한다. 이는 전통적인 궤적별 회귀와 달리 하나의 미분방정식 집합으로 다양한 궤적을 설명한다는 점에서 의미가 크다. 두 번째 사례는 5개의 인산화 부위를 가진 면역 수용체의 다중 부위 인산화 모델이다. 원래 32개의 ODE와 52개의 파라미터를 갖는 복잡한 미시 모델을 직접 피팅하면 과적합이 심각해진다. Sir Isaac은 데이터 양에 따라 5~20개의 파라미터만을 사용하는 시그모이드 모델을 자동 선택해, 적은 데이터(N≈100)에서도 정확한 예측을 제공하고, 데이터가 늘어날수록 점진적으로 복잡도를 높여 최종적으로는 원 모델에 근접한다. 세 번째 사례는 효모 당분해 경로에 대한 예측이다. 관측된 변수는 전체 종의 절반 이하이며, 실험 데이터는 수십 개에 불과하다. Sir Isaac은 숨은 변수를 모델에 포함시켜 차원을 효과적으로 추정하고, 제한된 데이터에서도 안정적인 예측을 수행한다. 이 모든 사례에서 Sir Isaac은 과적합을 방지하면서도 높은 예측 정확도를 유지한다.
계산 복잡도 측면에서, 모델 계층의 크기에 대한 탐색은 다항식 시간에 수행되며, 관측 수에 대해서는 선형적으로 확장된다. 이는 기존의 전역 탐색 방식이 초지수적으로 늘어나는 문제를 크게 완화한다. 또한, 베이지안 프레임워크를 사용함으로써 데이터 노이즈와 파라미터 불확실성을 자연스럽게 통합한다. 구현 코드는 GitHub에 공개되어 있으며, 파이썬 기반의 Sir Isaac 패키지는 사용자가 손쉽게 모델 계층을 정의하고 자동 적응형 추론을 수행하도록 설계되었다.
결론적으로, 이 연구는 “가능한 가장 간단한 모델을 찾되, 데이터가 허용하는 한 복잡도를 늘린다”는 원칙에 기반한 자동 적응형 동역학 추론 프레임워크를 제시한다. 제한된 실험 데이터와 관측되지 않은 변수들에도 불구하고, 복잡한 생물학적 시스템의 거시적 행동을 정확히 예측할 수 있음을 보여준다. 향후에는 더 다양한 생물학적 네트워크와 비정형 데이터(예: 단일 세포 시계열)에도 적용 가능성이 기대된다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기