건강 시스템 학습으로 구현한 범용 신경영상 모델
최첨단 인공지능(AI) 모델인 GPT‑5와 Meta의 DINOv3는 인터넷 규모의 공개 데이터를 이용해 급속히 발전했지만, 개인 임상 데이터에 접근하지 못한다. 특히 MRI와 CT 스캔에 포함된 식별 가능한 얼굴 특징 때문에 신경영상 데이터는 공개 영역에 거의 존재하지 않아 임상 의학에서 모델 성능이 제한된다. 본 연구에서는 이러한 최첨단 모델이 신경영상
초록
최첨단 인공지능(AI) 모델인 GPT‑5와 Meta의 DINOv3는 인터넷 규모의 공개 데이터를 이용해 급속히 발전했지만, 개인 임상 데이터에 접근하지 못한다. 특히 MRI와 CT 스캔에 포함된 식별 가능한 얼굴 특징 때문에 신경영상 데이터는 공개 영역에 거의 존재하지 않아 임상 의학에서 모델 성능이 제한된다. 본 연구에서는 이러한 최첨단 모델이 신경영상 과제에서 성능이 낮음을 확인하고, 일상 진료 과정에서 생성되는 비정형 데이터를 직접 학습하는 ‘건강 시스템 학습’이라는 패러다임이 고성능의 범용 신경영상 모델을 만든다는 것을 입증한다. 우리는 5.24 백만 건의 임상 MRI·CT 볼륨을 이용해 확장 가능한 부피 공동 임베딩 예측 아키텍처로 훈련된 시각 기반 기초 모델 NeuroVFM을 소개한다. NeuroVFM은 뇌 해부학 및 병리학을 포괄적으로 표현하여 방사선 진단 및 보고서 생성 등 여러 임상 과제에서 최첨단 성능을 달성한다. 경량 시각‑언어 지시 튜닝을 통해 오픈소스 언어 모델과 결합했을 때, NeuroVFM은 정확도, 임상 분류, 전문가 선호도 면에서 기존 최첨단 모델을 능가하는 방사선 보고서를 생성한다. 임상에 기반한 시각적 이해를 통해 환각성 결과와 중대한 오류를 크게 감소시켜 보다 안전한 임상 의사결정 지원을 제공한다. 이 결과는 의료 AI를 위한 범용 모델 구축에 ‘건강 시스템 학습’이 유효한 패러다임임을 입증하고, 임상 기초 모델을 위한 확장 가능한 프레임워크를 제시한다.
상세 요약
본 논문은 의료 AI 연구에서 가장 시급히 해결해야 할 두 가지 문제—공개 데이터의 부족과 임상 현장 적용 시 발생하는 오류—를 동시에 겨냥한다. 첫째, 기존의 대형 언어·시각 모델은 인터넷에서 수집한 방대한 공개 데이터를 기반으로 학습하지만, 신경영상 분야는 개인정보 보호 규정과 얼굴 식별 가능성 때문에 공개 데이터가 거의 존재하지 않는다. 따라서 이러한 모델을 그대로 의료 현장에 적용하면 해부학적 세부 구조를 정확히 파악하지 못하고, 진단에 필요한 미세한 병변을 놓치는 경우가 빈번하다. 논문은 실제 병원에서 일상 진료 과정 중 자동으로 저장되는 MRI·CT 볼륨 5.24 백만 건이라는 규모의 ‘비정형’ 데이터를 활용함으로써 이 한계를 극복한다는 점에서 혁신적이다.
두 번째 핵심은 ‘건강 시스템 학습(Health System Learning)’이라는 새로운 학습 패러다임을 제시한다는 점이다. 이는 데이터 수집·전처리·학습 전 과정을 병원 내부 인프라와 연계해, 환자 프라이버시를 보호하면서도 대규모 학습이 가능하도록 설계된 프레임워크다. 저자들은 부피 공동 임베딩(Volumetric Joint‑Embedding) 구조를 채택해 3차원 영상 전체를 한 번에 처리하고, 예측 기반 손실 함수를 통해 해부학적 구조와 병리학적 변화를 동시에 학습한다. 이 접근법은 기존 2D 슬라이스 기반 방법보다 공간적 연속성을 보존하면서도 효율적인 학습을 가능하게 한다.
성능 평가에서는 방사선 진단(예: 뇌출혈, 종양 구분)과 자동 보고서 생성 두 축에서 기존 최첨단 모델(GPT‑5, DINOv3 등)을 능가한다는 결과를 제시한다. 특히 ‘경량 시각‑언어 지시 튜닝(Lightweight Visual Instruction Tuning)’을 통해 오픈소스 언어 모델과 결합했을 때, 보고서의 임상적 정확도와 전문가 선호도가 크게 상승한다. 이는 모델이 실제 임상 현장에서 ‘환각(hallucination)’을 최소화하고, 중요한 소견을 놓치지 않는 안전성을 확보했음을 의미한다.
하지만 몇 가지 한계도 존재한다. 첫째, 데이터는 단일 혹은 소수의 의료기관에서 수집되었을 가능성이 높으며, 기관 간 이미지 프로토콜 차이와 장비 변이성을 충분히 반영했는지 의문이다. 둘째, 비정형 데이터의 품질 관리(예: 스캔 오류, 라벨링 부정확)와 개인정보 탈식별 과정이 상세히 기술되지 않아 재현 가능성에 대한 의문이 남는다. 셋째, 모델의 ‘해석 가능성’이라고 주장하지만, 실제 임상의가 시각적 근거를 어떻게 검증할 수 있는지에 대한 구체적인 인터페이스 설계가 부족하다. 마지막으로, 대규모 임상 데이터에 대한 접근 권한이 제한된 국가·기관에서는 동일한 학습 파이프라인을 구축하기 어려울 것이며, 이에 대한 정책·법적 가이드라인 제시가 필요하다.
종합하면, 본 연구는 의료 AI 분야에 ‘병원 내부 데이터 기반 대규모 학습’이라는 새로운 길을 제시함으로써, 공개 데이터 의존성을 탈피하고 임상 현장에 직접 적용 가능한 범용 신경영상 모델을 구현했다는 점에서 큰 의의를 가진다. 향후 다기관 협업을 통한 데이터 다양성 확보와, 모델 해석 및 윤리적 검증 프레임워크 구축이 병행된다면, NeuroVFM과 같은 모델은 실제 진료 흐름에 자연스럽게 녹아들어 방사선 진단의 효율성과 안전성을 크게 향상시킬 것으로 기대된다.
📜 논문 원문 (영문)
🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...