다시퍼 MR: 3차원 MRI를 위한 비전‑언어 기반 대형 모델
초록
Decipher‑MR는 20 000여 건의 연구에서 수집한 200 000개 이상의 3D MRI 시리즈와 해당 방사선 보고서를 활용해, 자체‑감독 영상 학습과 텍스트‑이미지 대조 학습을 결합한 비전‑언어 파운데이션 모델이다. 사전 학습된 인코더를 고정하고 경량 디코더만 미세조정하는 모듈식 설계로, 질병 분류, 인구통계 예측, 장기·병변 위치 파악, 텍스트‑이미지 검색 등 다양한 임상·연구 과제에서 기존 최첨단 모델보다 일관된 성능 향상을 보였다.
상세 분석
Decipher‑MR는 MRI 특유의 3차원 구조와 다양한 시퀀스·스캐너·인구통계적 변이를 포괄하도록 설계된 최초 규모의 비전‑언어 파운데이션 모델이다. 데이터셋은 22 594건의 연구, 203 233개의 MRI 시리즈, 20 658건의 방사선 보고서를 포함하며, 연령(0‑90세), 성별, 신체 부위, 제조사(GE, Siemens, Philips, Toshiba 등) 전반에 걸친 균형 잡힌 분포를 보인다.
학습은 두 단계로 진행된다. 1단계에서는 영상 인코더에 학생‑교사 대비 학습(contrastive)과 텍스트 인코더에 마스크드 언어 모델링을 적용해 각각의 도메인에서 풍부한 자체‑감독 표현을 획득한다. 2단계에서는 이미지‑보고서 대조 학습을 통해 두 모달리티를 정렬함으로써, 보고서에 포함된 해부학·병리 용어와 영상 특징을 연계한다. 이 과정은 전역적 특징뿐 아니라 미세 구조까지 포착하도록 설계돼, 이후의 교차‑모달 검색과 텍스트‑조건 생성에 강점을 제공한다.
모델 구조는 대규모 3D ViT 기반 인코더와 Transformer 기반 텍스트 인코더로 이루어지며, 사전 학습 후 인코더를 고정한다. 각 다운스트림 과제마다 1‑3개의 경량 MLP 혹은 작은 U‑Net 형태 디코더를 부착해 미세조정한다. 이렇게 하면 전체 파라미터 수를 수천 배 줄이면서도 빠른 수렴과 낮은 메모리 요구량을 달성한다.
성능 평가에서는 질병 분류, 연령·성별 예측, 장기·시퀀스 구분, 병변 검출 등 10여 개의 분류·회귀·세그멘테이션 과제에 대해 DINOv2, BiomedCLIP, MedImageInsight 등 최신 파운데이션 모델과 비교하였다. 평균 AUC 기준 2.9%~3.0% 향상(특히 데이터가 제한된 저‑샘플 상황에서 5% 이상 차이)과 MAE 기준 0.2‑0.4 감소를 기록했다. 또한 성별·연령 편향 분석에서 동일 성별 학습·테스트 시 성능이 최고였지만, 남·여 혼합 학습에서도 기존 모델 대비 5.5% 이상 우위를 유지해 인구통계적 강인성을 입증했다.
텍스트 감독과 데이터 다양성의 기여를 확인하기 위한 Ablation 실험에서는(1) 영상‑전용, (2) 머리·목 전용, (3) T2‑가중 전용 모델과 비교했을 때, 이미지‑텍스트 대조 학습이 모든 과제에서 평균 1.3%‑5.0%의 추가 이득을 제공했다. 특히 심장 질환, 전립선 병변 등 특정 장기에서 +5% 이상의 개선을 보였으며, 저‑데이터 상황에서 뇌 연령 예측·대조제 검출 등에서 두드러진 효과가 나타났다.
교차‑모달 검색 실험에서는 2,500건의 연구(≈25,000개 이미지) 중 정확히 매칭되는 스캔을 상위 10개 안에 포함시키는 비율이 26%에 달했으며, 이는 MedImageInsight(5.1%) 대비 5배 이상이다. 외부 데이터셋(Source1)에서는 상위 3개 내 정확도가 91.4%(전체 보고서)·78.8%(짧은 설명)로, 기존 모델을 크게 앞섰다. mAP 역시 전반적으로 높은 순위를 차지해 실제 임상 워크플로우에서의 실용성을 뒷받침한다.
전반적으로 Decipher‑MR는 (1) 대규모·다양한 3D MRI 데이터와 방사선 보고서를 활용한 두 단계 학습, (2) 모듈식 설계로 효율적인 파인튜닝, (3) 텍스트‑이미지 정렬을 통한 강력한 교차‑모달 능력, (4) 데이터 편향에 대한 내성을 갖춘 일반화된 표현 학습이라는 네 가지 핵심 강점을 제공한다. 이는 향후 MRI 기반 AI가 연구·임상 현장에서 빠르게 적용될 수 있는 기반을 마련한다.
댓글 및 학술 토론
Loading comments...
의견 남기기