다중 노출 건강 효과 추정을 위한 빠른 베이지안 커널 머신 회귀
초록
본 논문은 베이지안 커널 머신 회귀(BKMR)의 계산 부담을 완화하기 위해 감독형 랜덤 푸리에 특성(Random Fourier Features, RFF)을 도입한 ‘Fast BKMR’ 방법을 제안한다. RFF를 이용해 Gaussian Process를 저차원 선형 혼합효과 모델로 변환하고, Hamiltonian Monte Carlo으로 베이지안 추정을 수행한다. 시뮬레이션과 27만 건 이상의 출생 기록 분석을 통해 기존 BKMR 대비 추정 정확도는 유지하면서 계산 시간을 크게 단축함을 확인하였다.
상세 분석
Fast BKMR은 기존 BKMR이 직면한 핵심 병목인 n × n 커널 행렬의 역연산을 회피한다. Bochner 정리를 기반으로 Gaussian 커널을 스펙트럼 밀도에서 샘플링한 주파수 ω ₁,…,ω ⱼ 로 구성된 유한 개의 랜덤 푸리에 기저함수 집합으로 근사한다. 이때 주파수는 사전 분포 N(0,Σ) 를 갖으며, Σ는 각 노출별 커널 파라미터 θ ₘ 에 의해 대각선 형태로 정의된다. RFF를 사용하면 h(xᵢ)=∑ⱼ aⱼ cos(ωⱼᵀxᵢ)+bⱼ sin(ωⱼᵀxᵢ) 형태의 선형 혼합효과 모델로 재구성되며, aⱼ와 bⱼ는 정규 사전분포를 갖는 랜덤 효과 계수이다. 이렇게 하면 커널의 공분산 구조가 자동으로 보존되면서도 차원 J(기저 개수)만큼만 파라미터를 추정하면 되므로 메모리와 연산 복잡도가 O(nJ) 로 크게 감소한다.
베이지안 추정은 HMC을 이용해 고차원 파라미터(γ, aⱼ, bⱼ, ωⱼ)를 동시에 업데이트한다. HMC의 leapfrog 단계와 자동 튜닝된 스텝 사이즈는 수용률 65~85 %를 목표로 하며, 각 파라미터 블록을 Gibbs 샘플링으로 교체한다. 특히 ωⱼ를 데이터에 의해 학습하도록 설계함으로써 전통적인 고정된 RFF와 달리 ‘감독형’ 특성을 확보한다. 이는 커널 파라미터 θ ₘ 와 연동되어 노출 간 상관관계가 강하거나 약한 경우 모두 최적의 주파수를 자동 선택하게 만든다.
시뮬레이션에서는 노출 수 M=2,5,10 및 샘플 크기 N=20010 000을 다양하게 설정하였다. 노출‑반응 표면의 상관 강도(강함 vs 약함)와 커널 형태(정규형 vs 절대값형) 차이에 따라 Fast BKMR은 기존 BKMR과 비슷한 RMSE를 유지하면서, 특히 J가 20200 정도일 때 계산 시간이 10배 이상 단축되었다. 커널이 잘못 지정된 경우에도 예측 정확도가 크게 저하되지 않았으며, 예측 프로세스(PP) 기반 저차원 근사보다 일관적으로 우수했다.
실제 데이터 적용에서는 조지아 주 270 000건 이상의 출생 기록을 사용해 PM₂.₅, NO₂, O₃ 등 다중 대기오염 물질과 출생 체중 간의 비선형 공동 효과를 추정했다. Fast BKMR은 복합 노출 효과를 시각화하고, 특정 오염 물질의 임계값을 식별하는 데 성공했으며, 전체 분석에 소요된 시간은 기존 BKMR이 수십 시간에 달하는 반면 몇 시간 내에 완료되었다.
이러한 결과는 RFF 기반 저차원 근사가 베이지안 커널 모델의 유연성을 크게 손상시키지 않으며, 대규모 역학 연구에서 실용적인 대안이 될 수 있음을 시사한다. 다만, J 선택에 따른 근사 오차와 HMC 수렴 진단이 중요한 과제로 남아 있다. 향후 연구에서는 자동화된 J 선택 기준, 비정상적(비정상성) 커널 확장, 그리고 다중 레벨(계층적) 노출 구조에 대한 적용 가능성을 탐색할 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기