전신 PET 영상용 범용 분할 기반 모델 SegAnyPET 개발
초록
본 논문은 11,041개의 3D 전신 PET 스캔과 59,831개의 라벨을 포함한 세계 최대 규모의 PET 데이터셋(PETWB‑Seg11K)을 구축하고, 이를 기반으로 3D 구조와 프롬프트 엔지니어링을 결합한 범용 분할 모델 SegAnyPET을 제안한다. 모델은 점·마스크 프롬프트를 이용해 장기·병변을 자유롭게 분할하며, 제로샷 상황에서도 높은 정확도를 보인다. 내부·외부 다중센터, 다중트레이서, 다중질환 검증을 통해 기존 task‑specific 모델을 능가하거나 동등한 성능을 확인했으며, 인간‑인‑루프 워크플로우에도 적합함을 입증한다.
상세 분석
이 연구는 PET 영상 분야에서 데이터와 모델 양쪽 모두의 병목을 동시에 해소한다는 점에서 의미가 크다. 첫째, PETWB‑Seg11K는 두 개의 공개 데이터와 세 개의 사설 코호트를 통합해 11,041건의 전신 3D PET와 59,831개의 세분화 마스크를 제공한다. 스캔 장비, 프로토콜, 슬라이스 수·두께, 질환 유형 등에서 광범위한 이질성을 포함함으로써, 실제 임상 환경에서 마주치는 OOD(Out‑Of‑Distribution) 상황에 대한 강인성을 확보한다. 둘째, SegAnyPET은 SAM(Segment Anything Model)의 프롬프트 기반 설계를 3차원 볼륨에 확장하였다. 이미지 인코더는 3D ConvNet(또는 Transformer 기반)으로 PET의 저대비·저해상도 특성을 학습하고, 프롬프트 인코더는 점 프롬프트와 마스크 프롬프트를 각각 위치 인코딩과 어댑티브 임베딩으로 변환한다. 이 두 임베딩을 마스크 디코더에서 융합해 다중 스케일 업샘플링과 MLP를 거쳐 최종 마스크를 출력한다. 프롬프트 설계는 (1) 최소한의 클릭만으로 빠른 초기 분할을 가능하게 하고, (2) 인간이 제공하는 추가 점·마스크를 통해 iterative refinement를 수행하도록 하여, 임상 현장의 ‘human‑in‑the‑loop’ 요구를 충족한다. 셋째, 모델은 두 가지 변형을 제공한다. 기본 SegAnyPET은 전신 장기·병변을 포괄적으로 다루며, SegAnyPET‑Lesion은 병변 중심 데이터로 파인튜닝해 작은 종양·이질성 병변에 대한 민감도와 경계 정확도를 향상시킨다. 넷째, 실험 결과는 내부 검증(같은 센터, 동일 프로토콜)과 외부 검증(다른 센터·다른 트레이서) 모두에서 기존 최첨단 task‑specific 모델(nnUNet, STUNet, SwinUNETR, SegResNet)과 비교해 평균 Dice 0.85 이상을 기록하며, 특히 보이지 않는 새로운 장기·병변에 대해서도 0.78 이상의 제로샷 성능을 보였다. 이는 프롬프트 기반 범용 모델이 라벨 스페이스에 얽매이지 않고도 의미 있는 표현을 학습했음을 의미한다. 마지막으로, SegAnyPET의 출력은 정량적 PET 분석(예: SUVmax, 체적 측정) 및 치료 반응 평가 파이프라인에 바로 적용 가능함을 시연함으로써, 연구‑임상 간 격차를 줄이는 실용적 가치를 강조한다. 다만, 현재 모델은 PET‑CT·PET‑MRI 등 복합 모달리티에서의 직접적인 멀티모달 학습을 다루지 않으며, 희귀 트레이서나 초저용량 스캔에 대한 검증이 부족한 점은 향후 과제로 남는다.
댓글 및 학술 토론
Loading comments...
의견 남기기