모달리티 격차와 일반화 착각: 3D 의료 영상 분할 기반 모델의 한계
초록
본 논문은 3D 의료 기반 모델이 구조 영상(CT, MRI)에서는 좋은 성능을 보이지만, 기능 영상(PET)에서는 급격히 성능이 떨어지는 모달리티 격차를 체계적으로 밝힌다. 490개의 PET/CT와 464개의 PET/MRI 전체 몸 영상(13개 장기)으로 구성된 UMD 데이터셋을 구축하고, 동일 환자 내에서 구조·기능 영상을 쌍으로 비교함으로써 모달리티 자체가 모델 성능에 미치는 영향을 정량화한다. 평가 결과, 현재 대표적인 5개 3D 기반 일반 목적 분할 모델은 PET에서 거의 제로에 가까운 Dice 점수를 기록했으며, 이는 기존 문헌에 보고된 “범용성”이 실제 임상 환경에서는 크게 과장된 것임을 시사한다. 저자는 다중모달 사전학습과 평가 체계의 재구축이 필요하다고 주장한다.
상세 분석
본 연구는 3D 의료 영상 분야에서 최근 각광받는 ‘foundation model’ 개념을 비판적으로 검증한다. 먼저, 기존 모델들의 벤치마크가 주로 CT·MRI와 같은 고대비 구조 영상을 중심으로 이루어졌으며, PET과 같은 저대비·노이즈가 큰 기능 영상은 거의 배제된 점을 지적한다. 이러한 데이터 편향은 모델이 “해부학적 형태”에 최적화되도록 만들고, 대사·기능 정보를 반영하는 PET에서는 전혀 일반화되지 못한다는 가설을 세운다.
이를 검증하기 위해 저자들은 UMD(University Medical Dataset)라는 새로운 대규모 전체 몸 데이터셋을 구축했다. 490개의 PET/CT와 464개의 PET/MRI 쌍을 동일 환자·동일 검사 세션에서 획득해, 구조·기능 영상 간 공간·해부학적 정합성을 보장한다. 13개 장기에 대해 voxel‑level 정밀 주석을 제공함으로써, 장기별 성능 차이를 정량화할 수 있는 기반을 마련했다.
평가에는 현재 가장 활발히 연구되는 5개 3D 일반 목적 분할 모델을 선택했다. SAM‑Med3D‑turbо(점 기반 프롬프트), SegVol(대규모 사전학습), nnInteractive(점‑프롬프트), VISTA3D(텍스트‑프롬프트), SAT‑Pro(텍스트‑프롬프트)이다. 각 모델은 zero‑shot 설정에서 동일한 프롬프트(점 혹은 텍스트)를 사용해 PET와 CT/MRI를 동시에 세그멘테이션하도록 했다.
결과는 충격적이다. CT에서는 평균 Dice가 0.400.48 수준(특히 간·뇌·폐 등 고대비 장기)으로 비교적 양호했지만, PET에서는 대부분 0.000.10 수준에 머물렀다. 특히 텍스트 기반 모델(VISTA3D, SAT‑Pro)은 거의 전혀 작동하지 않았으며, 점 기반 모델도 고대비 장기(방광, 간)에서만 제한적으로 성능을 회복했다. 이는 모델이 “해부학적 경계”에 의존하고, 대사적 신호 패턴을 학습하지 못했음을 의미한다.
또한, 동일 장기에 대해 CT와 PET 사이의 성능 차이가 통계적으로 유의미(p<0.01, p<0.0001)함을 확인했으며, 이는 모달리티 자체가 주요 독립 변수임을 강력히 뒷받침한다. 저자들은 nnU‑Net과 같은 task‑specific 모델을 10개 케이스씩 학습시킨 결과와 비교했을 때, 일반 목적 모델이 PET에서 거의 0에 가까운 성능을 보이며, task‑specific 모델이 여전히 우위에 있음을 강조한다.
논문의 의의는 두 가지로 요약할 수 있다. 첫째, 현재 3D 의료 foundation model이 “범용성”이라고 주장하는 근거가 구조 영상에 국한된 편향된 벤치마크에 기반하고 있음을 밝힘으로써, 연구 커뮤니티에 평가 패러다임 전환을 촉구한다. 둘째, 다중모달(CT/MRI+PET) 사전학습과, 모달리티 별 독립적인 테스트셋 구축의 필요성을 제시한다. 향후 모델이 실제 임상 현장에서 다양한 영상 유형을 동시에 활용하려면, 대사·기능 정보를 포함한 대규모 멀티모달 데이터와, 모달리티‑불변 프롬프트 설계가 필수적이다.
한계점으로는 현재 평가가 zero‑shot 설정에 국한되어 있어, fine‑tuning이나 도메인 적응이 PET 성능을 얼마나 회복시킬 수 있는지는 다루지 않았다는 점이다. 또한, PET의 방사성 동위원소 종류나 촬영 프로토콜 차이에 따른 변동성 분석이 부족하다. 향후 연구에서는 이러한 변수들을 포함한 보다 포괄적인 멀티모달 학습·평가 프레임워크가 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기