베이지안 인과 참조 기반 모델을 활용한 결측 데이터 처리: 부분 관측된 사후 사건 데이터 통합

본 연구는 치료 정책 추정량을 목표로 하는 무작위 대조 임상시험에서 인터커런트 이벤트(ICE) 이후에 발생하는 결측 데이터를 다루는 새로운 통계적 방법을 제시한다. ICH E9(R1) 가이드라인에 따라 ICE를 어떻게 다루느냐에 따라 추정량이 크게 달라지며, 특히 치료 정책 전략에서는 ICE 이후의 실제 관측값을 그대로 활용해야 한다. 그러나 실제 임상시험에서는 ICE 발생 후 환자 추적이 어려워 사후‑ICE 데이터가 부분적으로만 수집되는 경우가 빈번하다. 기존 방법으로는 (1) 회수‑드롭아웃(RD) 접근법이 있는데, 이는 사전‑ICE 데이터와 제한된 사후‑ICE 데이터를 결합해 결측치를 보정한다. 하지만 사후‑ICE 데이터가 적을 경우 표준오차가 급증하고, MCMC 혹은 최대우도 추정 과정에서 수렴 문제가 발생한다. (2) 표준 참조 기반 임퓨테이션(RBI) 방법은 사후‑ICE 결측치를 완전히 참조군(예: 위약) 분포에 의존해 대체한다. 이는 구현이 간단하고 표준오차가 작지만, “모든 치료 효과가 유지된다(CIR)” 혹은 “치료 효과가 완전히 사라진다(J2R)”와 같은 강력한 가정을 필요로 하며, 가정이 현실과 어긋날 경우 편향된 추정치를 초래한다. 저자들은 이러한 양극단 방법의 장점을 결합한 베이지안 인과 참조 기반 모델(BCM)을 개발하였다. 핵심은 “maintained effect” 파라미터 k₀에 사전분포를 부여해, 참조 기반 가정에 대한 불확실성을 정량화하고, 관측된 데이터가 충분히 있을 경우 k₀를 데이터가 학습하도록 하는 것이다. 기존 연구에서는 사후‑ICE 데이터가 전혀 없을 때만 BCM을 제시했지만, 본 논문에서는 실제 임상시험에서 흔히 발생하는 “일부 사후‑ICE 데이터가 관측된” 상황을 모델에 포함시켰다. 모델 구성은 다음과 같다. 1. **잠재 결과 프레임워크**: 각 환자에 대해 치료를 지속한 경우와 중단한 경우의 잠재 결과 Y(s)를 정의한다. 여기서 s는 치료 지속 기간을 의미한다. 2. **MMRM 가정**: 대조군(참조)과 치료군 각각에 대해 다변량 정규분포를 가정한 혼합 모델(MMRM)을 설정해 평균 μ(s)와 공분산 Σ(s)를 추정한다. 공분산 구조는 모든 중단 시점에 대해 동일하다고 가정한다(Σ(s)≡Σ). 3. **인과적 유지 효과**: 사후‑ICE 결과 Y>j는 사전‑ICE 결과 Y≤j와 유지 효과 파라미터 k₀에 의해 조건부 평균을 갖는다. 구체적으로 식 (2)에서 제시된 바와 같이 β_j(j)·Y≤j − β_j(j)·μ≤j(j) + k₀·(μ_j(j)−μ_j(0)) + μ>j(0) 로 표현된다. k₀=1이면 CIR, k₀=0이면 J2R에 해당한다. 4. **베이지안 프레임워크**: k₀에 대해 정규(또는 균등) 사전을 부여한다. 사후‑ICE 데이터가 관측된 경우, 해당 데이터의 다변량 정규 likelihood를 모델에 포함시켜 k₀에 대한 정보를 제공한다. 사후‑ICE 데이터가 전혀 없을 때는 사전이 그대로 유지된다. 5. **추정 방법**: 두 가지 구현을 제시한다. (a) **완전 베이지안 구현**: Stan을 이용해 전체 모델(μ, Σ, k₀, ICE 발생 비율 π_j 등)을 동시에 추정한다. (b) **임퓨테이션 기반 접근**: MMRM을 이용해 μ와 Σ를 추정한 뒤, 추정된 파라미터와 사전에서 샘플링한 k₀ 값을 사용해 다중 임퓨테이션을 수행한다. 임퓨테이션된 데이터셋에 대해 표준 분석을 적용하고, Rubin’s rule을 이용해 최종 추정치를 얻는다. 시뮬레이션 설계는 다양한 사후‑ICE 데이터 가용성(전혀 없음, 10%, 30%, 50% 관측)과 k₀에 대한 사전 강도(넓은 사전 vs. 좁은 사전)를 고려했다. 주요 결과는 다음과 같다. - **RD 방법**은 사후‑ICE 데이터가 희박할수록 표준오차가 급격히 증가하고, 경우에 따라 MCMC 수렴이 실패한다. - **표준 RBI**는 표준오차가 작지만, k₀를 고정함으로써 실제 유지 효과와 차이가 있을 경우 편향이 발생한다. - **BCM (완전 베이지안)**은 사후‑ICE 데이터가 충분히 있을 때 k₀를 데이터가 학습하도록 하여 편향을 최소화하고, 데이터가 부족할 경우 사전이 주도해 안정적인 추정이 가능하다. 특히, 사전 분산을 작게 설정하면 표준오차를 크게 억제할 수 있다. - **BCM (임퓨테이션)**도 유사한 성능을 보이며, 기존 MI 워크플로와 호환성이 높아 실무 적용이 용이하다. 실제 데이터 적용에서는 항생제 임상시험 데이터를 사용해 치료 중단 후 일부 환자의 추적 결과를 포함하였다. 기존 RBI는 치료 효과를 과소평가했으나, BCM은 관측된 사후‑ICE 데이터를 활용해 보다 현실적인 유지 효과를 추정했고, 표준오차도 합리적인 수준을 유지했다. 결론적으로, 본 논문은 “부분 관측된 사후‑ICE 데이터”라는 현실적인 제약 하에서, 기존 RD와 RBI 방법의 한계를 동시에 극복하는 베이지안 인과 참조 기반 모델을 제시한다. 사전‑ICE와 사후‑ICE 데이터를 모두 활용하고, 유지 효과 파라미터에 대한 불확실성을 정량화함으로써, 치료 정책 추정량의 정확도와 안정성을 크게 향상시킨다. 또한, 완전 베이지안 구현과 임퓨테이션 기반 구현을 모두 제공함으로써, 다양한 분석 환경에 적용 가능하도록 설계되었다. 향후 연구에서는 다중 유형의 ICE, 비선형 효과, 그리고 비정규 결과 변수에 대한 확장 가능성을 탐색할 예정이다.

베이지안 인과 참조 기반 모델을 활용한 결측 데이터 처리: 부분 관측된 사후 사건 데이터 통합

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기