망막 영상과 임상 데이터를 활용한 다중모달 딥러닝 기반 뇌졸중 예측 및 탐지
초록
본 연구는 광학 코히런스 단층촬영(OCT) 및 적외선 반사 망막 영상을 임상 데이터와 결합한 다중모달 딥러닝 모델(RetStroke)을 제안한다. 37 k개의 비라벨링 스캔을 이용해 SimCLR 기반 자기지도 사전학습을 수행하고, 소규모 라벨링 데이터로 미세조정한다. 이미지 단일 모델 대비 AUROC가 5 % 향상되고, 기존 최첨단 파운데이션 모델 대비 8 % 개선된 결과를 보이며, 뇌졸중 위험 예측과 급성 뇌졸중 후 잔존 효과 탐지 모두에서 유의미한 성능을 입증한다.
상세 분석
RetStroke는 시각 인코더와 EHR 인코더를 각각 CNN(ResNet‑18)과 MLP로 구현한 후, late‑fusion 방식을 통해 두 모달리티의 특징을 결합한다. 시각 인코더는 SimCLR을 이용해 1.1 M개의 OCT 슬라이스와 적외선 반사 이미지에 대해 대조 학습을 수행했으며, 데이터 증강으로는 랜덤 크롭, 색상 변형, 가우시안 블러, 수평·수직 플립을 적용했다. 학습 과정에서 온도 파라미터 τ를 학습가능하게 설정해 대조 손실의 안정성을 높였고, AdamW 옵티마이저와 코사인 학습률 스케줄러를 사용해 200 epoch까지 조기 종료 기준을 적용했다.
라벨링 단계에서는 OCT 스캔이 뇌졸중 진단 시점 전후 365일 이내에 발생했는지를 기준으로 양성·음성 라벨을 부여했으며, 위험 예측(스캔 이후 뇌졸중)과 잔존 효과 탐지(스캔 이전 뇌졸중) 두 시나리오를 별도로 평가했다. 데이터 전처리에서는 환자 연령·성별·흡연 여부 등 34개의 정적 임상 변수를 원‑핫 인코딩하고, 수치형 변수는 min‑max 정규화를 적용했다. 결측값은 임상 지식에 기반한 정상값으로 대체하였다.
실험 결과, 이미지 단일 CNN 대비 AUROC가 0.05 상승했으며, 기존 파운데이션 모델(RetFound) 대비 0.08 상승했다. 특히 90일·180일·270일·365일 등 다양한 시간 창에서 일관된 성능 향상을 보였으며, 다중모달 접근이 임상 변수만 사용한 모델보다도 우수했다. 모델 해석에서는 시각 특징이 망막의 맥락층 두께, 혈관 밀도 등과 연관된 것으로 나타났으며, 임상 변수는 고혈압·당뇨·심방세동 등 기존 위험 요인과 상호보완적인 정보를 제공했다.
한계점으로는 단일 의료기관(CCAD) 데이터에 국한돼 외부 검증이 부족하고, 라벨링이 ICD 코드와 약물 처방에 의존해 잠재적 오분류 위험이 있다. 또한 OCT 스캔이 눈 질환이나 시술 이력에 의해 영향을 받을 수 있어, 이러한 교란 요인을 추가적으로 통제할 필요가 있다. 향후 다기관 데이터셋 확보와 시계열 EHR 통합, 그리고 설명가능 AI 기법을 도입해 임상 적용성을 높이는 것이 과제로 남는다.
댓글 및 학술 토론
Loading comments...
의견 남기기