방사선 기초 모델 Pillar0 대규모 CT MRI 사전학습과 RATE 라벨링 프레임워크를 통한 임상 성능 혁신

읽는 시간: 4 분
...

📝 Abstract

Radiology plays an integral role in modern medicine, yet rising imaging volumes have far outpaced workforce growth, contributing to burnout and challenges in care delivery. Foundation models offer a path toward assisting with the full spectrum of radiology tasks, but existing medical models remain limited: they process volumetric CT and MRI as low-fidelity 2D slices, discard critical grayscale contrast information, and lack evaluation frameworks that reflect real clinical practice. Here, we introduce Pillar-0, a radiology foundation model pretrained on 42,990 abdomen-pelvis CTs, 86,411 chest CTs, 14,348 head CTs, and 11,543 breast MRIs from a large academic center, together with RATE, a scalable framework that extracts structured labels for 366 radiologic findings with near-perfect accuracy using large language models. Across internal test sets of 14,230 abdomen-pelvis CTs, 10,646 chest CTs, 4,906 head CTs, and 1,585 breast MRIs, Pillar-0 establishes a new performance frontier, achieving mean AUROCs of 86.4, 88.0, 90.1, and 82.9, outperforming MedGemma (Google), MedImageInsight (Microsoft), Lingshu (Alibaba), and Merlin (Stanford) by 7.8-15.8 AUROC points and ranking best in 87.2% (319/366) tasks. Pillar-0 similarly outperforms all baselines in an external validation on the Stanford abdomen-pelvis CT dataset, including Merlin (82.2 vs 80.6 AUROC), which uses the Stanford dataset for development. Pillar-0 extends to tasks beyond its pretraining, such as long-horizon lung cancer risk prediction, where it improves upon the state-of-the-art Sybil by 3.0 C-index points on NLST, and generalizes with gains of 5.9 (MGH) and 1.9 (CGMH). In brain hemorrhage detection, Pillar-0 obtained a >95 AUROC when using only 1 20 of the data of the next most sample efficient baseline. Pillar-0 and RATE together provide an open, clinically rigorous foundation for building high-performance radiology systems, enabling applications that were previously infeasible due to computational, data, and evaluation constraints.

💡 Analysis

본 논문은 방사선 분야에서 기초 모델의 실용성을 크게 한 단계 끌어올린 연구로 평가할 수 있다. 첫째, 데이터 규모와 다양성에서 눈에 띈다. 복부·골반, 흉부, 두경부 CT와 유방 MRI를 포함한 4가지 영상 모달리티를 총 155,292건 이상 확보했으며, 이는 기존 의료 이미지 모델이 주로 제한된 장기나 단일 모달리티에 머물렀던 점을 크게 뛰어넘는다. 특히 CT와 MRI를 동시에 다루면서도 3D 볼륨 정보를 온전히 보존하는 학습 파이프라인을 구현한 점은 회색조 대비와 미세 구조를 유지하는 데 결정적이다.

둘째, 라벨링 프레임워크 RATE는 대형 언어 모델(Large Language Model, LLM)을 활용해 방사선 보고서에서 366개의 임상 소견을 자동으로 추출하고 구조화한다는 혁신적인 접근이다. 기존에는 라벨링을 위해 방사선 전문의가 직접 주석을 달아야 했지만, RATE는 “거의 완벽한 정확도”를 달성함으로써 라벨링 비용을 급감시키고, 대규모 데이터셋 구축의 병목을 해소한다. 이는 향후 다른 의료 분야에도 확장 가능한 라벨링 인프라로 활용될 가능성을 시사한다.

셋째, 성능 평가에서 Pillar0는 내부 테스트뿐 아니라 외부 검증까지 일관된 우수성을 보였다. 특히 Stanford 데이터셋에서 Merlin(Stanford 자체 개발 모델)보다 높은 AUROC를 기록한 점은 모델의 일반화 능력이 뛰어남을 입증한다. AUROC 86.490.1이라는 평균 점수는 기존 상용 모델 대비 7.815.8 포인트 상승한 것으로, 임상 현장에서 실제 진단 보조 도구로 활용될 경우 오류 감소와 효율성 향상에 크게 기여할 수 있다.

넷째, 전이 학습 및 장기 예측 능력도 주목할 만하다. 폐암 위험 예측에서 Sybil보다 C‑index를 3.0 포인트 개선했으며, 이는 단순 이미지 분류를 넘어 환자 예후 예측까지 확장 가능한 모델임을 보여준다. 또한 뇌출혈 검출에서 데이터 효율성을 극대화해, 기존 최첨단 모델의 1/20 데이터만으로도 95 AUROC 이상을 달성했다는 점은 의료 현장에서 라벨이 부족한 상황에서도 강력한 성능을 발휘할 수 있음을 의미한다.

다만 몇 가지 한계도 존재한다. 첫째, 데이터가 단일 대형 학술 의료기관에서 수집되었기 때문에 인구통계학적 편향이 존재할 가능성이 있다. 둘째, RATE가 LLM 기반이라 보고서의 언어적 다양성(예: 비표준 표현, 오탈자)에 얼마나 강인한지는 추가 검증이 필요하다. 셋째, 모델의 추론 비용과 실제 병원 인프라에 적용 가능한 실시간 처리 능력에 대한 논의가 부족하다. 향후 연구에서는 다기관 데이터셋을 통한 교차 검증, 라벨링 오류에 대한 견고성 강화, 그리고 경량화된 추론 엔진 개발이 요구된다.

종합하면, Pillar0와 RATE는 방사선 AI의 데이터·라벨·평가 3대 장벽을 동시에 해소한 획기적인 플랫폼으로, 임상 현장에 바로 적용 가능한 고성능 모델을 제공한다는 점에서 학계와 산업계 모두에게 큰 파급 효과를 기대할 수 있다.

📄 Content

방사선은 현대 의학에서 필수적인 역할을 수행하지만, 영상 검사량의 급증이 인력 증가를 크게 앞서면서 번아웃 및 진료 전달에 어려움을 초래하고 있다. 기초 모델은 방사선 업무 전반을 지원할 가능성을 제시하지만, 기존 의료 모델은 볼륨 CT·MRI를 저해상도 2D 슬라이스로만 처리하고 중요한 회색조 대비 정보를 손실하며, 실제 임상 실무를 반영한 평가 체계가 부족하다. 본 연구에서는 대규모 학술 의료기관에서 확보한 복부·골반 CT 42,990건, 흉부 CT 86,411건, 두경부 CT 14,348건, 유방 MRI 11,543건을 사전학습한 방사선 기초 모델 Pillar0와, 대형 언어 모델을 활용해 366개의 방사선 소견을 거의 완벽한 정확도로 구조화 라벨로 추출하는 확장 가능한 프레임워크 RATE를 제시한다. 내부 테스트 셋(복부·골반 CT 14,230건, 흉부 CT 10,646건, 두경부 CT 4,906건, 유방 MRI 1,585건)에서 Pillar0는 평균 AUROC 86.4, 88.0, 90.1, 82.9를 기록했으며, 이는 Google MedGemma, Microsoft MedImageInsight, Alibaba Lingshu, Stanford Merlin 등 기존 모델보다 7.8~15.8 AUROC 포인트 상승하고 87.2% (319/366) 과제에서 최고 성능을 달성한 것이다. Pillar0는 Stanford 복부·골반 CT 외부 검증에서도 Merlin(80.6)보다 높은 82.2 AUROC를 기록하였다(Merlin은 해당 데이터셋을 개발에 사용). Pillar0는 사전학습 범위를 넘어 장기 폐암 위험 예측에서도 Sybil보다 C‑index를 3.0 포인트 향상시켰으며(NLST), MGH와 CGMH 데이터셋에서도 각각 5.9, 1.9 포인트 상승하였다. 뇌출혈 검출에서는 다음으로 가장 데이터 효율적인 베이스라인의 1/20 데이터만으로도 95 AUROC 이상을 달성했다. Pillar0와 RATE는 고성능 방사선 시스템 구축을 위한 개방적이고 임상적으로 엄격한 기반을 제공하여, 기존에 계산·데이터·평가 제약으로 불가능했던 응용을 가능하게 한다.

이 글은 AI가 자동 번역 및 요약한 내용입니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키