다중센터 OCT 스캔에서 망막 질환 자동 분류 Pegasus OCT 검증
초록
이 연구는 Pegasus‑OCT라는 임상 의사결정지원 소프트웨어가 다섯 개 국가의 서로 다른 병원·장비·인구통계학적 환경에서 촬영된 5,588개의 정상·비정상 망막 OCT 볼륨을 대상으로 일반 이상, 연령관련 황반변성(AMD) 및 당뇨망막병증(DME) 검출 성능을 평가하였다. 전체 데이터셋에서 일반 이상 검출 AUROC가 98% 이상, 품질이 충분한 스캔에서는 AMD와 DME 검출 AUROC가 각각 최소 99%와 98%에 달해, 다양한 환경에서도 높은 정확도를 유지함을 확인했다.
상세 분석
본 논문은 임상 현장에서 인공지능 기반 OCT 판독 지원 시스템의 일반화 가능성을 검증하기 위해 설계되었다. 데이터는 5개 국가(미국, 독일, 일본, 브라질, 한국)의 5개 독립 센터에서 수집된 5,588개의 OCT 볼륨(총 162,721 B‑scan)으로 구성되었으며, 각 센터는 서로 다른 OCT 제조사(예: Zeiss, Heidelberg, Topcon)와 다양한 스캔 프로토콜을 사용하였다. 이러한 이질성은 모델이 실제 임상 현장에서 마주할 변동성을 그대로 반영한다는 점에서 중요한 설계 요소다.
Pegasus‑OCT는 사전 학습된 3D Convolutional Neural Network(3D‑CNN)를 기반으로 하며, 입력으로 전체 볼륨을 받아 다중 레이블(일반 이상, AMD, DME) 예측을 수행한다. 모델은 전처리 단계에서 자동 품질 평가 모듈을 통해 신호‑대‑노이즈 비율, 중심선 정렬, 시술자 오류 등을 검출하고, 품질이 낮은 스캔은 별도 플래그를 부여한다. 이는 실제 임상에서 “품질이 낮은 이미지”에 대한 오탐을 최소화하는 전략이다.
평가 지표는 주로 AUROC, 민감도, 특이도, F1‑score를 사용했으며, 각 센터별로 별도 검증을 수행했다. 결과는 전체 데이터셋에서 일반 이상 검출 AUROC가 0.982(95% CI 0.978–0.986)로 매우 높았으며, 품질이 충분한 서브셋(전체의 78%)에서는 AMD 검출 AUROC가 0.994, DME 검출 AUROC가 0.981에 달했다. 민감도와 특이도 역시 95% 이상을 유지했으며, 특히 DME와 같이 미세한 망막 부종을 감지하는 경우에도 높은 정확도를 보였다.
다양한 제조사의 장비와 서로 다른 인구통계학적 특성(연령, 인종, 당뇨병 유병률 등)을 포함했음에도 불구하고 성능 차이가 미미했는데, 이는 모델이 이미지의 저수준 텍스처와 구조적 특징을 효과적으로 추출했음을 의미한다. 또한, 자동 품질 평가 모듈이 적용된 경우와 적용되지 않은 경우를 비교했을 때, 품질이 낮은 스캔에서의 오탐률이 2배 이상 감소하는 것을 확인했다. 이는 Pegasus‑OCT가 실제 임상 워크플로우에 원활히 통합될 수 있는 근거를 제공한다.
한계점으로는 레이블링이 각 센터별 전문가에 의해 수행되었으나, 표준화된 라벨링 프로토콜이 없었다는 점이다. 따라서 라벨 간 일관성 차이가 모델 성능에 미치는 영향을 완전히 배제하기는 어렵다. 또한, 연구에 포함되지 않은 희귀 망막 질환(예: 슈트루스 병, 유전성 망막 변성 등)에 대한 검증이 부족하므로, 향후 다중 클래스 확장이 필요하다. 마지막으로, 실시간 임상 적용을 위한 추론 속도와 하드웨어 요구사항에 대한 상세 보고가 없었으며, 이는 실제 도입 단계에서 고려해야 할 요소다.
종합적으로, Pegasus‑OCT는 다중센터, 다중 장비, 다양한 인구집단에 걸쳐 높은 일반화 성능을 보이며, 자동 품질 관리와 결합된 3D‑CNN 구조가 OCT 기반 망막 질환 검출에 효과적임을 입증했다. 향후 대규모 전향적 임상시험과 희귀 질환 포함 데이터셋을 통한 검증이 진행된다면, 안과 진료의 효율성을 크게 향상시킬 수 있을 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기