“방문·측정·생체표지자 3중 연계: EHR 데이터의 비정규 관찰을 잡아내는 GIVEHR 모델”
📝 Abstract
Longitudinal electronic health record (EHR) data offer opportunities to study biomarker trajectories; however, association estimates-the primary inferential target-from standard models designed for regular observation times may be biased by a two-stage hierarchical missingness mechanism. The first stage is the visiting process (informative presence), where encounters occur at irregular times driven by patient health status; the second is the observation process (informative observation), where biomarkers are selectively measured during visits. To address these mechanisms, we propose a unified semiparametric joint modeling framework that simultaneously characterizes the visiting, biomarker observation, and longitudinal outcome processes. Central to this framework is a shared subject-specific Gaussian latent variable that captures unmeasured frailty and induces dependence across all components. We develop a three-stage estimation procedure and establish the consistency and asymptotic normality of our estimators. We also introduce a sequential procedure that imputes missing biomarkers prior to adjusting for irregular visiting and examine its performance. Simulation results demonstrate that our method yields unbiased estimates under this mechanism, whereas existing approaches can be substantially biased; notably, methods adjusting only for irregular visiting may exhibit even greater bias than those ignoring both mechanisms. We apply our framework to data from the All of Us Research Program to investigate associations between neighborhood-level socioeconomic status indicators and six blood-based biomarker trajectories, providing a robust tool for outpatient settings where irregular monitoring and selective measurement are prevalent.
💡 Analysis
**
1. 연구 배경 및 필요성
- EHR 특성: 전통적인 코호트·임상시험과 달리, EHR에서는 방문 시점과 검사항목이 사전에 정의되지 않으며, 환자·의사·시스템 요인에 의해 동적으로 결정된다.
- 두 단계 누락 메커니즘
- Informative Visiting (IV): 질병 중증도가 높은 환자는 더 자주 방문하거나, 반대로 의료 접근성 부족으로 방문이 적을 수 있다.
- Informative Observation (IO): 방문 시점에 특정 바이오마커를 측정할지 여부가 현재 증상·과거 결과·의사의 판단 등에 따라 선택된다.
- 문제점: 기존 연구는 IV만을 고려하거나, IO를 MAR(관측가능 결측) 가정하에 단순 회귀·가중치 보정으로 처리한다. 이는 실제 MNAR 상황에서 심각한 편향을 초래한다.
2. 주요 기여
| 구분 | 기존 방법 | GIVEHR의 차별점 |
|---|---|---|
| 모델링 구조 | 방문·관측·결과를 별도 혹은 일방향(IV만) 모델링 | 공유 가우시안 잠재변수 Uᵢ를 통해 3가지 프로세스 전부를 동시 연결 |
| 잠재이질성 | 주로 Gamma frailty(방문) 혹은 관측가능(관측) 가정 | Log‑normal frailty + probit 혼합으로 전체가 다변량 정규 구조 유지 → 폐쇄형 마진 가능 |
| 추정 효율성 | 베이지안 MCMC(시간 이산화) 등 계산량 급증 | 3단계 절차(조건부 최대우도 → EM‑like)로 대규모 EHR에 적용 가능 |
| 이론적 보장 | 대부분 시뮬레이션 기반 | 일관성·점근 정규성 증명(정규성 가정 하) |
| 실제 적용 | 제한된 바이오마커·소규모 코호트 | All of Us(수십만 명)·6개 바이오마커·사회경제 지표와 연계 |
3. 모델 상세
- 방문 프로세스
- 강도 λᵢ(t)=λ₀(t)·exp(γᵀXᵥᵢ + ηᵢ)·I(t≤Cᵢ)
- ηᵢ = exp(μ₀ + σUᵢ) (log‑normal) → E
📄 Content
한국어 번역 (2000자 이상)
일상적인 임상 진료에서 수집된 종단 데이터는 전향적 코호트 연구나 임상시험에서 마주치는 추론상의 문제와 근본적으로 다른 도전을 제기한다. 설계된 연구에서는 프로토콜이 환자 방문 일정과 각 방문 시 수행되는 측정 항목을 모두 규정한다. 반면 일상 진료에서는 방문 시점도, 특정 바이오마커를 측정할지 여부도 사전에 정해져 있지 않으며, 이들은 질병 중증도, 임상의 판단, 환자의 특성 및 행동 등 복합적인 요인에 의해 결정된다(Hripcsak and Albers, 2013; Goldstein et al., 2016). 이러한 임상 구동 메커니즘이 연구 대상인 잠재적인 건강 궤적에 의존할 경우, 데이터 수집 과정을 고정되거나 외생적인 것으로 취급하는 분석은 노출‑바이오마커 연관성을 체계적으로 편향된 추정값을 제공한다(Lin et al., 2004; Pullenayegum and Lim, 2016). 전자 건강 기록(EHR) 데이터가 미국의 All of Us 연구 프로그램(All of Us Research Program Investigators, 2019)이나 영국 바이오뱅크(Bycroft et al., 2018)와 같은 대규모 생의학 이니셔티브에 널리 활용되면서 이러한 문제는 점점 더 중요해지고 있다. 이들 프로젝트에서는 일상적으로 수집된 실험실 검사가 임상·인구통계·유전·환경·행동·사회적 건강 결정 요인과의 연관성을 탐구하기 위한 종단적 결과 변수로 사용된다. 대표적인 사례가 실험실‑전반 연관 연구(LabWAS; Goldstein et al., 2020; Dennis et al., 2021)이다. LabWAS에서는 반복 측정된 바이오마커를 전표현형 수준에서 유전적 위험 요인과 연결한다. LabWAS가 실증적 통찰을 제공했지만, 반복 측정을 단순 요약값으로 축소하면 피험자 내 변동성을 무시하고 데이터 수집 과정의 정보성을 반영하지 못한다. 구체적으로, 두 가지 임상 구동 메커니즘—방문 시점과 특정 바이오마커를 측정할지 여부—이 표준 방법이 다루지 못하는 방식으로 데이터를 왜곡한다.
이 두 메커니즘은 EHR 데이터 수집에 내재된 2단계 계층 구조를 반영한다(그림 1). 첫 번째 단계는 방문 과정으로, 임상적 판단에 따라 불규칙한 시점에 환자 방문이 발생한다. 질병 부담이 큰 환자가 더 자주 방문하면, 불리한 건강 상태가 과대표현되어 ‘정보성 존재(informative presence, IP)’라는 편향이 발생한다(Lin et al., 2004; Sun et al., 2007). 그러나 IP에 따른 편향의 방향은 명확하지 않다. 의료 접근성이 제한되면 가장 아픈 환자의 방문 빈도가 감소할 수 있고(Obermeyer et al., 2019), 진단 검사 비율의 이질성이 방문 빈도를 증가시킬 수도 있다(Ellenbogen et al., 2024). 따라서 IP에 의한 편향의 크기와 부호를 사전에 판단하기는 어렵다. 두 번째 단계는 관찰 과정이다. 방문이 발생한 경우, 임상의는 현재 증상, 이전 검사 결과, 임상적 판단 등에 근거해 관심 바이오마커를 측정할지 결정한다. 이 결정이 관측되지 않은 건강 궤적과 연관된 요인에 의존하면 ‘정보성 관찰(informative observation, IO)’이라는 두 번째 편향원이 발생한다(Wells et al., 2013; Haneuse and Daniels, 2016). 그림 1의 왼쪽 패널에 있는 환자 2를 예로 들면, 첫 번째 방문(빈 원)에서는 임상적 징후가 없어 검사가 이루어지지 않는다. 두 번째 방문에서는 악화된 상태에 대응해 검사가 수행된다(실선 점). 세 번째 방문에서는 회복을 확인하기 위해 추적 검사가 이루어지며, 이는 환자의 현재 상태와 임상 이력을 모두 고려한 결정이다. All of Us 데이터에서는 외래 방문 중 일부만에서 바이오마커가 측정된다. 예를 들어, 최소 한 번이라도 포도당 기록이 있는 환자 중에서도 평균 측정 비율은 9.1 %에 불과하다. 바이오마커마다 결측 정도는 크게 다르며(표 4), 이러한 결측은 무시할 수 없는 특성을 가진다. 방문 빈도와 측정 결정에 영향을 미치는 잠재적 건강 상태, 의료 접근성, 임상 판단의 이질성 등은 연구하고자 하는 바이오마커 궤적과 상관관계가 있기 때문에 두 단계 모두 ‘무작위가 아닌 결측(MNAR)’ 메커니즘을 형성한다. 따라서 어느 한 단계만을 별도로 다루어서는 해결되지 않는다.
그림 1
왼쪽 패널: 방문 과정에 의해 생성된 환자 1, 2, 3의 예시. X_Vi가 방문 과정을, X_Oi(t)와 X_Yi(t)가 각각 관찰·결과 과정을 구동한다. 오른쪽 패널: 분석에 사용되는 ‘long‑format’ 데이터셋. Y_i(t) 열에 “NA”가 표시된 경우는 환자가 클리닉에 있었음에도 불구하고 바이오마커가 측정되지 않은 경우(R_Yi(t)=0)를 의미한다.
종단 EHR 분석에 관한 통계 문헌(e.g., Gasparini et al., 2020)은 주로 IP 메커니즘, 즉 계층 구조의 첫 번째 단계에 초점을 맞추어 바이오마커 궤적을 추정한다. 대표적인 접근법으로는 역강도 가중(inverse intensity weighting)(Robins et al., 2000; Lin and Ying, 2001; Burvzkova and Lumley, 2007; Yiu and Su, 2025), 쌍별 가능도(pairwise likelihood)(Chen et al., 2015; Shen et al., 2019), 방문·종단 과정을 공유 frailty로 공동 모델링하는 방법(Liang et al., 2009; Dai and Pan, 2018; Weaver et al., 2023) 등이 있다. 이들 방법은 불규칙하게 관측된 종단 데이터를 다루는 데 큰 진전을 이루었지만, 공통적인 한계가 있다. 즉, ‘클리닉 방문이 있으면 반드시 관심 바이오마커가 측정된다’는 가정을 내포하고 있어, IP는 보정하지만 관찰 단계가 존재하지 않는 것으로 취급한다는 점이다. Anthopolos et al.(2021)이 제시한 베이지안 프레임워크는 IP와 IO를 모두 고려하지만, 대규모 EHR 데이터에 적용하기엔 계산량이 비현실적이다. 최근 제안된 EHRJoint(Du et al., 2025)는 방문·관찰·종단 과정을 각각 모델링함으로써 2단계 구조를 인정하지만, 관찰 모델을 관측된 공변량에 대한 독립 회귀로 설정한다. 이는 환자의 건강 인식, 의료 접근성, 기록되지 않은 임상 직관 등 측정되지 않은 이질성을 포착하지 못한다. 결과적으로 관찰 메커니즘을 ‘관측된 공변량에 조건부한 무작위 결측(MAR)’으로 취급하게 되며, 앞서 언급한 MNAR 메커니즘을 충분히 반영하지 못한다.
본 연구의 주요 기여
GIVEHR 프레임워크 제안
우리는 GIVEHR(Gaussian Informative Visiting and observation processes in Electronic Health Records)라는 반파라메트릭 공동 모델링 체계를 제시한다. 특히 외래 진료 환경에 적합하도록 설계된 GIVEHR은 EHR 데이터 수집의 2단계 계층 구조를 명시적으로 반영한다. 기존 방법과 달리 방문 강도, 관찰 메커니즘, 바이오마커 궤적을 공유 Gaussian 잠재 변수를 통해 연결한다. 이 구조는 측정되지 않은 이질성을 포착하면서도 폐쇄형 주변우도(closed‑form marginal likelihood)를 제공하므로, 대규모 EHR 데이터베이스에서도 계산 효율적인 추정이 가능하다. Anthopolos et al.(2021)의 베이지안 접근법은 시간 이산화를 필요로 하지만, GIVEHR은 연속시간 모델을 유지해 EHR 특유의 불규칙 방문 구조를 보존한다. 결과적으로 GIVEHR은 방문·관찰 양쪽 모두에서 발생하는 MNAR 메커니즘을 동시에 고려함으로써, 기존 방법이 해결하지 못한 편향을 교정한다. 우리는 정규성 가정 하에 제안 추정량의 일관성(consistency)과 점근적 정규성(asymptotic normality)을 정리와 증명을 통해 확보한다.기존 방법 20가지에 대한 체계적 평가
우리는 IP와 IO 메커니즘을 동시에 포함한 상황에서 20개의 기존 접근법을 네 가지 범주로 구분하여 비교한다.- Outcome‑only: IP·IO 모두를 무시하고 순수 종단 모델만 적용.
- IP‑only: 방문 불규칙성을 보정하지만 매 방문마다 바이오마커가 측정된다고 가정.
- Imputation‑based pipelines: 결측 바이오마커를 먼저 보간(impute)한 뒤 IP 보정을 적용.
- Joint IP+IO: 두 단계 모두를 동시에 모델링.
기존 연구에서는 위 두 번째와 네 번째 범주를 결합한 방법이 제시된 바 없었으므로, 우리는 Imputation + IP 파이프라인을 새롭게 도입하고 다른 방법들과 비교한다.
평가 결과, 부분적인 보정은 오히려 역효과를 낼 수 있음을 확인했다. IP만 보정하고 IO를 무시하면, “모든 방문이 측정을 동반한다”는 잘못된 전제가 모델에 강제되어 관측되지 않은 관찰 편향이 방문 과정에 귀속된다. 따라서 편향이 증폭되어 순수 분석보다 더 큰 오류를 초래한다. 시뮬레이션에서는 공동 MNAR 메커니즘을 정확히 지정했을 때 GIVEHR이 거의 편향이 없는 추정치를 제공하는 반면, 기존 방법은 상당한 편향을 보였다. 지정된 메커니즘에서 벗어난 경우에도 GIVEHR은 모든 경쟁 방법보다 편향을 크게 감소시켰다.
마지막으로, 우리는 GIVEHR을 All of Us 연구 프로그램 데이터에 적용해 두 개의 지역사회 수준 사회경제 지표와 여섯 개 임상 바이오마커의 종단 궤적 간 연관성을 조사했다. 동일 환자에 대해 여러 바이오마커가 공유하는 방문 과정 덕분에, ‘일상적인 검사’부터 ‘고도로 표적화된 검사’까지 다양한 관찰 메커니즘을 동일 IP 구조 하에서 비교할 수 있었다. 이 사례는 GIVEHR이 대규모 EHR 데이터에 확장 가능함을 보여주며, 방문·관찰 양쪽의 MNAR 메커니즘을 고려했을 때 사회경제‑바이오마
이 글은 AI가 자동 번역 및 요약한 내용입니다.