망막 퇴행성 질환 평가를 위한 딥러닝: MARIO 챌린지 종합 분석
초록
MARIO 챌린지는 MICCAI 2024에서 개최된 AMD(노년성 황반변성) 모니터링 경진대회로, 프랑스와 알제리의 OCT·적외선·임상 데이터를 활용해 두 가지 과제(연속 B‑scan 변화 분류와 3개월 후 질환 진행 예측)를 제시하였다. 35개 팀이 참가했으며, 12개 최종팀의 방법을 상세히 비교하였다. 결과는 AI가 현재 질환 진행(과제 1)에서는 안과 전문의와 동등한 성능을 보였지만, 향후 진행 예측(과제 2)에서는 아직 충분히 신뢰할 수 없음을 보여준다.
상세 분석
MARIO 챌린지는 AMD 환자의 항‑VEGF 치료 과정에서 발생하는 미세한 체액 변화와 병변 진행을 자동화하기 위해 설계된 최초 규모의 다중 모달 대회이다. 주요 강점은 (1) 프랑스 브레스트 병원에서 수집된 고해상도 OCT B‑scan 시퀀스와 적외선 영상, 그리고 환자 연령·성별·방문 횟수 등 임상 메타데이터를 결합한 복합 데이터셋을 제공한 점이다. (2) 알제리 현지에서 동일 프로토콜로 수집된 보조 데이터셋을 통해 도메인 이동(인구·기기 차이)과 모델 일반화 능력을 별도 검증했다는 점이다.
두 과제는 각각 다른 기술적 요구사항을 내포한다. 과제 1은 두 연속 B‑scan 사이의 미세한 변화(특히 SRF·IRF·반사 초점)를 판별하는 이진/다중 클래스 분류 문제이며, 정확한 레지스트레이션과 정밀한 특징 추출이 핵심이다. 대부분의 상위 팀은 (i) 사전 레지스트레이션 단계에서 변형 모델(예: 딥 디포메이션 네트워크)이나 OCT‑specific 피처(전망선, 층 경계)를 이용해 이미지 정렬을 수행했으며, (ii) U‑Net·ResNet·EfficientNet 기반의 CNN에 attention 또는 Transformer 블록을 결합해 체액 영역을 세분화하고, 이를 기반으로 변화 점수를 계산했다. 또한 임상 메타데이터를 멀티‑모달 피처와 결합해 최종 로짓을 보정함으로써, 인간 안과 전문의와 동등하거나 약간 상회하는 AUC(0.92~0.95)를 달성했다.
과제 2는 3개월 후의 질환 상태(진행·안정·퇴행)를 예측하는 시계열 회귀/분류 문제로, 불규칙한 방문 간격과 치료 개입(주입 횟수·시점)이라는 복합 변수들을 동시에 모델링해야 한다. 여기서 대부분의 팀이 LSTM·GRU 기반의 순환 네트워크를 사용했으나, 시간 간격을 명시적으로 고려하지 못해 성능이 제한적이었다. 일부 팀은 Neural ODE, Temporal Convolutional Network, 혹은 Continuous‑Time Transformer를 도입했지만, 데이터 양이 제한적이었고 라벨 불균형(진행 사례가 소수) 때문에 AUROC가 0.68~0.73에 머물렀다. 특히, 체액 양의 정량적 변화와 치료 기록을 정규화하여 입력에 포함시킨 팀이 약간 높은 성능을 보였으나, 전반적으로 인간 전문가 수준에 미치지 못했다.
평가 지표는 단순 정확도 대신 임상적 중요성을 반영한 Sensitivity·Specificity 균형, F1‑Score, 그리고 진행/퇴행에 대한 비용 가중 AUROC를 사용했다. 이는 실제 안과 진료에서 과잉 치료와 미치료 위험을 균형 있게 고려하려는 의도다.
기술적 한계로는 (1) OCT 이미지의 품질 변동(노이즈·신호 강도)과 기기 차이(브레스트 vs 알제리)로 인한 도메인 갭, (2) 불규칙한 추적 간격과 치료 개입을 정확히 모델링하기 위한 충분한 시계열 데이터 부족, (3) 라벨링의 주관성(전문의 간 판정 차이)으로 인한 학습 신호 약화가 있다. 또한, 대부분의 팀이 2D B‑scan 기반 접근에 머물렀으며, 3D 볼륨 전체를 활용한 공간적 연관성을 충분히 탐구하지 못했다는 점도 주목할 만하다.
향후 연구 방향은 (i) 도메인 적응 기술(예: adversarial training, style transfer)으로 다기관·다인구 데이터에 대한 일반화 강화, (ii) 불규칙 시계열을 자연스럽게 다루는 Neural ODE·Continuous‑Time Graph Neural Network와 같은 연속‑시간 모델의 적용, (iii) 3D CNN·Vision Transformer를 이용한 전체 볼륨 분석과 레이어‑별 피처 추출, (iv) 멀티‑태스크 학습(체액 검출 + 진행 예측)으로 상호 보완적 정보를 활용하는 전략이 제시된다. 마지막으로, 임상 현장에 적용하기 위해서는 모델 설명가능성(XAI)과 실시간 추론 효율성을 동시에 만족시키는 경량화 모델 개발이 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기