Some of the variables, some of the parameters, some of the times, with some physics known: Identification with partial information

📝 Abstract
Experimental data is often comprised of variables measured independently, at different sampling rates (non-uniform $Δ $t between successive measurements); and at a specific time point only a subset of all variables may be sampled. Approaches to identifying dynamical systems from such data typically use interpolation, imputation or subsampling to reorganize or modify the training data $\textit{prior}$ to learning. Partial physical knowledge may also be available $\textit{a priori}$ (accurately or approximately), and data-driven techniques can complement this knowledge. Here we exploit neural network architectures based on numerical integration methods and $\textit{a priori}$ physical knowledge to identify the right-hand side of the underlying governing differential equations. Iterates of such neural-network models allow for learning from data sampled at arbitrary time points $\textit{without}$ data modification. Importantly, we integrate the network with available partial physical knowledge in “physics informed gray-boxes”; this enables learning unknown kinetic rates or microbial growth functions while simultaneously estimating experimental parameters.
💡 Analysis
Experimental data is often comprised of variables measured independently, at different sampling rates (non-uniform $Δ $t between successive measurements); and at a specific time point only a subset of all variables may be sampled. Approaches to identifying dynamical systems from such data typically use interpolation, imputation or subsampling to reorganize or modify the training data $\textit{prior}$ to learning. Partial physical knowledge may also be available $\textit{a priori}$ (accurately or approximately), and data-driven techniques can complement this knowledge. Here we exploit neural network architectures based on numerical integration methods and $\textit{a priori}$ physical knowledge to identify the right-hand side of the underlying governing differential equations. Iterates of such neural-network models allow for learning from data sampled at arbitrary time points $\textit{without}$ data modification. Importantly, we integrate the network with available partial physical knowledge in “physics informed gray-boxes”; this enables learning unknown kinetic rates or microbial growth functions while simultaneously estimating experimental parameters.
📄 Content
실험 데이터를 다룰 때는 보통 여러 변수들이 서로 독립적으로 측정된다는 점을 염두에 두어야 합니다. 각 변수마다 측정이 이루어지는 샘플링 속도가 서로 다를 수 있는데, 이는 연속적인 두 측정값 사이의 시간 간격 Δt가 일정하지 않은, 즉 비균일(non‑uniform) Δt 로 수집된다는 의미입니다. 더욱이 실제 실험 현장에서는 특정 시점에 전체 변수들을 모두 동시에 측정할 수 없는 경우가 흔히 발생합니다. 따라서 어떤 순간에는 전체 변수 집합 중 일부만이 선택적으로 샘플링되고, 나머지 변수들은 그 시점에서 관측되지 않은 채 남게 됩니다.
이러한 비정형(heterogeneous) 데이터로부터 동적 시스템(dynamical system) 을 식별하고자 할 때 전통적으로 사용되는 접근법은 크게 세 가지로 구분됩니다. 첫 번째는 보간(interpolation) 을 통해 관측되지 않은 시간점에 대한 값을 추정하고, 두 번째는 결측값 대체(imputation) 혹은 보간 기반 대체 를 이용해 누락된 변수 값을 채워 넣으며, 세 번째는 서브샘플링(subsampling) 혹은 재표본화(resampling) 을 통해 서로 다른 샘플링 주기를 하나의 일관된 시간 격자로 맞추는 방법입니다. 이러한 전처리 과정은 모두 학습 이전에(training prior) 데이터를 재구성하거나 변형한다는 공통점을 가지고 있습니다.
하지만 실제 물리·화학·생물 시스템을 모델링할 때는 사전 물리적 지식(a priori physical knowledge) 이 어느 정도 제공되는 경우가 많습니다. 예를 들어, 반응 메커니즘이 알려져 있거나, 보존 법칙, 질량·에너지 보존식, 혹은 특정 변수들 간의 관계식이 근사적으로라도 존재할 수 있습니다. 이러한 사전 지식은 정확하게(accurately) 혹은 근사적으로(approximately) 주어질 수 있으며, 데이터‑드리븐(data‑driven) 기법과 결합하면 모델의 일반화 능력과 해석 가능성을 크게 향상시킬 수 있습니다.
본 연구에서는 수치 적분 방법(numerical integration methods) 에 기반한 신경망 아키텍처(neural network architectures) 와 사전에 알려진 물리적 지식을 동시에 활용하는 새로운 프레임워크를 제안합니다. 구체적으로는, 미분 방정식의 우변(right‑hand side, RHS) 을 파라미터화(parameterize)하는 신경망을 설계하고, 이 신경망을 수치 적분 스킴(예: Euler, Runge‑Kutta 등) 과 결합함으로써 연속적인 시간 흐름을 자연스럽게 모델링합니다. 이렇게 구성된 신경망은 반복(iterates) 형태로 동작하는데, 즉 한 단계씩 시간 전진을 수행하면서 다음 상태를 예측합니다.
이러한 구조의 가장 큰 장점은 데이터가 임의의 시간점(arbitrary time points) 에서 샘플링되었더라도 데이터 자체를 수정하거나 보간할 필요 없이(without data modification) 학습이 가능하다는 점입니다. 즉, 관측된 시점과 시점 사이의 비균일 Δt 를 그대로 유지한 채로 손실 함수(loss function)를 정의하고, 실제 측정값과 신경망이 예측한 값 사이의 차이를 최소화함으로써 파라미터를 최적화할 수 있습니다.
또한 우리는 ‘physics‑informed gray‑box’ 라는 개념을 도입하여, 부분적으로 알려진 물리 법칙 을 네트워크 내부에 제약(constraint) 형태로 삽입합니다. 예를 들어, 반응 속도식이 일부 알려져 있거나, 미생물 성장 모델이 대략적인 형태(예: Monod 식) 로 주어져 있다면, 해당 식을 신경망의 일부 레이어에 고정하거나 가중치를 제한하는 방식으로 구현합니다. 이렇게 하면 알려지지 않은 동역학적 파라미터(예: 미지의 반응 속도 상수, 미생물 성장 함수의 비선형 형태) 를 신경망이 자동으로 학습하면서 동시에 실험 파라미터(예: 초기 농도, 온도, pH 등) 도 추정할 수 있게 됩니다.
요약하면, 본 방법은
- 비균일·비동시 샘플링 으로 이루어진 복잡한 실험 데이터를 그대로 활용한다.
- 수치 적분 기반 신경망 을 통해 연속적인 동적 시스템을 정확히 재현한다.
- 사전 물리 지식 을 ‘gray‑box’ 형태로 네트워크에 통합함으로써 물리적 일관성을 유지한다.
- 알려지지 않은 kinetic rate 나 미생물 성장 함수 와 같은 비선형·비선형 파라미터를 데이터‑드리븐 방식으로 추정한다.
- 실험 파라미터 도 동시에 최적화하여 전체 시스템 모델링의 정확성을 높인다.
이와 같이 제안된 프레임워크는 기존에 보간·대체·재샘플링에 의존하던 전통적인 접근법과는 달리, 데이터 자체를 변형하지 않고도 복잡하고 불규칙한 실험 데이터로부터 정확한 동역학 모델 을 도출할 수 있다는 점에서 큰 의미를 갖습니다. 특히, 물리‑기반 지식이 부분적으로만 제공되는 ‘gray‑box’ 상황에서도 강인하게 작동하므로, 다양한 분야(예: 화학 반응 공정, 생물학적 배양, 환경 시스템 등) 에 적용 가능할 것으로 기대됩니다.