인구 수준 역학 위험 평가를 위한 공간 랜덤 포레스트와 노출‑반응 함수 결합 알고리즘
초록
본 논문은 공간적 자기상관을 고려한 베이지안 모델과 랜덤 포레스트를 결합한 SPAR‑Forest‑ERF 알고리즘을 제안한다. 비선형·상호작용 효과를 학습하면서도 노출‑반응 함수(ERF)를 해석 가능하게 추정하고, 전체 불확실성을 정량화한다. 스코틀랜드 2022년 인구조사 데이터를 활용한 대기오염과 자가평가 건강 간 관계 분석을 사례로 제시한다.
상세 분석
SPAR‑Forest‑ERF는 기존의 포아송 회귀 기반 공간역학 모델이 갖는 “선형·가법적” 가정과 사전 지정된 교란 변수 상호작용을 극복한다. 구체적으로, (1) 노출‑반응 함수 g(x) 를 선형, 베이지안 p‑스플라인 기반 비선형, 그리고 베르크손 측정오차 모델을 포함한 세 가지 형태로 자유롭게 선택하도록 설계하였다. 이는 정책 입안자가 특정 노출 수준에서 위험 증가율을 직접 해석할 수 있게 한다. (2) 교란 변수와 위험의 관계를 랜덤 포레스트 m(z) 로 모델링함으로써 고차원 비선형·상호작용을 데이터‑드리븐 방식으로 포착한다. 포레스트는 OOB 예측을 통해 과적합을 방지하고, 공간적 자기상관을 완전히 제거하지 못하는 한계를 보완하기 위해 후속 베이지안 공간 스무딩 단계(조건부 자기회귀, CAR)를 도입한다. (3) 두 단계 사이의 불확실성을 전파하는 새로운 베이지안 연쇄 샘플링 절차를 제안한다. 즉, 포레스트에서 얻은 예측값의 사후 분포를 공간 랜덤 효과 모델의 입력으로 사용해 전체 모델의 사후 분포를 일관되게 추정한다. (4) 주요 추론 대상인 ERF의 안정성을 보장하기 위해 “ERF 기반 정지 규칙”을 도입하였다. 반복 학습 과정에서 ERF 추정값의 변화가 사전 정의된 허용 오차 이하로 수렴하면 알고리즘을 종료한다. 이는 전통적인 예측 정확도 기반 정지 기준보다 추론 목적에 부합한다. (5) 시뮬레이션에서는 다양한 공간 자기상관 강도와 비선형 노출 효과를 설정해 기존 포아송‑CAR 모델과 비교했을 때, 평균 절대 편차와 커버리지 비율 모두에서 우수함을 보였다. 실제 스코틀랜드 사례에서는 NO₂, PM₂.₅, PM₁₀ 각각에 대해 비선형 ERF를 추정했으며, 도시 지역에서 노출이 증가할수록 ‘나쁜 건강’ 위험이 급격히 상승한다는 결과를 얻었다. 전체적으로 SPAR‑Forest‑ERF는 공간 역학 연구에서 해석 가능성, 유연성, 불확실성 정량화라는 세 축을 동시에 만족시키는 혁신적 프레임워크라 할 수 있다. 다만, 랜덤 포레스트 단계의 하이퍼파라미터 선택과 공간 랜덤 효과의 사전 설정이 결과에 민감할 수 있으며, 대규모 데이터셋에서는 베이지안 추론 비용이 제한 요인으로 작용할 가능성이 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기