다중 커널 학습을 활용한 COVID 19 환자 흉부 X선 이미지 기반 ICU 전이 예측
초록
본 연구는 기존 단일 커널 방식의 한계를 극복하고, 다중 커널 학습(MKL)을 일반화 선형 모델(GLM) 프레임에 통합한 새로운 방법인 GLIMARK를 제안한다. GLIMARK는 방사선학적 특징을 다양한 스케일과 뷰(view)로 분할하고, 각 파티션에 여러 커널을 결합함으로써 비선형 관계를 효과적으로 포착한다. Michigan Medicine의 대규모 흉부 X선(CXR) 데이터셋(≈2백만 장)과 전자의무기록을 이용해 COVID‑19 환자의 ICU 전이 여부를 이진 예측 대상으로 삼았으며, NGTDM 및 Shape2D와 같은 방사선학적 특징이 기존 회귀·랜덤 포레스트 모델에서는 놓쳤던 중요한 정보를 제공함을 확인하였다.
상세 분석
GLIMARK는 기존 MARK(Multiple Additive Regression Kernels) 방법의 두 가지 근본적인 제한점을 해소한다. 첫째, MARK는 손실함수로 제곱오차만을 사용해 가우시안형 연속형 결과에만 적용 가능했지만, GLIMARK는 지수족(이항, 포아송, 가우시안 등) 분포를 포괄하는 일반화 선형 모델(GLM) 프레임워크를 도입한다. 이를 위해 로그우도 기반의 손실함수 ℓ(θ|y)=yθ−b_glm(θ) 를 정의하고, 정규화 항 λ‖f‖_Hk 을 추가해 과적합을 억제한다. 두 번째로, 방대한 파티션‑커널 조합(P·Q)이 생성하는 초고차원 커널 행렬을 효율적으로 다루기 위해 컬럼 생성(column generation) 기반 전진 선택 알고리즘을 설계하였다. 각 컬럼은 “환자‑뷰” 조합을 의미하며, 선택 기준은 손실함수에 대한 편미분의 절대값이 가장 큰 항을 순차적으로 추가하는 방식이다. 선택된 컬럼에 대해서는 Adam 최적화기를 이용해 α와 절편 b 를 동시에 업데이트한다. 이 과정은 모델을 점진적으로 희소화(sparse)하면서도 중요한 비선형 패턴을 보존한다.
핵심적인 수학적 구성은 다음과 같다.
1) f(z)=∑{j=1}^N∑{q=1}^Q∑{p=1}^P α{j,p,q} k_q(z_{p}^{(j)},z_p)+b, 여기서 z_p 는 파티션 p 에 해당하는 특징 벡터이며, k_q 는 사전 정의된 기본 커널(RBF, polynomial 등)이다.
2) 정규화 제약 ∑{p,q} μ{p,q}=1 을 두어 커널 가중치의 식별성을 확보하고, ‖f‖Hk 은 α와 μ 모두에 의존하도록 설계해 모델 복잡도를 직접 제어한다.
3) 손실함수 H(α,b)=−(1/N)∑{i=1}^Nℓ(f_i|y_i)+λ‖f‖_Hk 을 최소화하는 것이 목표이며, 이때 ℓ 은 이항 로짓 손실(−
댓글 및 학술 토론
Loading comments...
의견 남기기