불규칙 방문·관찰을 동시에 고려한 EHR 종단 데이터 공동 모델링
초록
본 연구는 환자 방문 시점과 바이오마커 측정 시점이 건강 상태에 따라 달라지는 두 단계의 정보성 결측 메커니즘을 동시에 모델링한다. 공유된 주관적 가우시안 잠재 변수를 도입해 방문 과정, 관찰 과정, 그리고 종속 종단 결과 과정을 연결하고, 3단계 추정 절차와 일관성·점근 정규성을 입증하였다. 시뮬레이션과 All of Us 데이터 적용을 통해 기존 방법이 초래하는 편향을 크게 감소시킴을 확인하였다.
상세 분석
이 논문은 전자건강기록(EHR)에서 흔히 발생하는 두 종류의 정보성 결측—‘방문 과정(informative visiting)’과 ‘관찰 과정(informative observation)’—을 동시에 고려한 통합 반반모수 공동 모델을 제안한다. 기존 연구는 주로 방문 시점만을 조정하거나, 전혀 조정하지 않아 편향된 연관 추정치를 초래했는데, 저자들은 이러한 한계를 극복하기 위해 공유된 주관적 가우시안 잠재변수(공통 frailty)를 도입하였다. 이 잠재변수는 각 환자별 미측정된 건강 상태를 포착하며, 방문 강도, 바이오마커 측정 확률, 그리고 종단 결과(예: 혈압, 당화혈색소 등)의 선형 예측식에 동시에 영향을 미친다.
모델 구조는 크게 세 부분으로 나뉜다. 첫 번째는 ‘방문 위험도 모델’로, 시간‑의존적 베이스라인 위험도와 환자‑특정 frailty를 곱해 방문 발생률을 정의한다. 두 번째는 ‘관찰 모델’로, 방문이 일어난 순간에 특정 바이오마커가 측정될 확률을 로짓 형태로 모델링하고, 여기에도 동일한 frailty가 포함된다. 세 번째는 ‘종단 모델’로, 관측된 바이오마커 값들을 선형 혼합효과 모델로 기술하되, frailty가 무작위 절편과 기울기에 동시에 작용한다. 이렇게 함으로써 세 과정 간의 상관구조를 명시적으로 모델링하고, 관측되지 않은 방문·관찰 메커니즘에 의해 발생하는 선택 편향을 통계적으로 제거한다.
추정 절차는 1) 초기값을 얻기 위한 부분 최대우도 추정, 2) EM‑알고리즘 기반의 3단계 추정(방문·관찰·종단 파라미터 순차 업데이트), 3) 최종 파라미터에 대한 sandwich 형태의 분산 추정으로 구성된다. 저자들은 이 절차가 수렴성을 보이며, 큰 표본에서 추정량이 일관적이고 점근적으로 정규분포를 따른다는 정리를 증명하였다. 또한, ‘순차적 보간 절차’를 제안해, 먼저 결측 바이오마커를 다중 보간으로 채운 뒤 방문 과정을 조정하는 방법과 비교했지만, 통합 모델이 편향과 평균제곱오차 모두에서 우수함을 확인했다.
시뮬레이션에서는 두 메커니즘이 동시에 존재할 때 기존 방법(방문만 조정, 전혀 조정 안 함)이 20~40% 정도의 편향을 보인 반면, 제안 모델은 편향을 거의 0에 가깝게 만든다. 흥미롭게도, 방문만 조정한 방법이 오히려 편향을 확대시키는 경우도 관찰되었는데, 이는 관찰 과정의 선택 편향을 무시함으로써 발생한다는 점을 강조한다.
실제 데이터 적용에서는 All of Us 연구 프로그램의 6가지 혈액 바이오마커(예: CRP, HbA1c, LDL 등)와 지역사회 수준의 사회경제적 지표(소득, 교육 수준 등) 간의 연관성을 분석했다. 결과는 저소득·저교육 지역 거주자가 특정 바이오마커(예: 염증 마커)의 상승 추세를 보이며, 이러한 연관성이 방문·관찰 메커니즘을 조정한 후에도 통계적으로 유의함을 보여준다. 이는 정책 입안자가 불균형 의료 접근성을 평가할 때, 관측 편향을 고려한 정교한 통계 모델이 필요함을 시사한다.
전반적으로 이 논문은 EHR 기반 종단 연구에서 흔히 간과되는 두 단계의 정보성 결측을 동시에 해결하는 방법론적 진보를 제시한다. 공유 frailty를 통한 공동 모델링은 통계적 효율성을 높이고, 실제 임상·공공보건 연구에서 보다 신뢰할 수 있는 인과 추정을 가능하게 한다.
댓글 및 학술 토론
Loading comments...
의견 남기기