단일 슬라이스에서 3D 복원: 의료 영상과 자연 객체의 한계와 SAM3D 우위
초록
본 연구는 의료 CT·MRI 단일 슬라이스를 입력으로 하는 5개 최신 이미지‑to‑3D 파운데이션 모델(SAM3D, Hunyuan3D‑2.1, Direct3D, Hi3DGen, TripoSG)을 6개 의료·2개 자연 데이터셋에 대해 제로샷 벤치마크하였다. 모든 모델이 의료 슬라이스에서 깊이 단서가 부족해 voxel‑IoU·Dice가 0.1~0.2 수준으로 매우 낮았지만, 전역 거리 지표(Chamfer, EMD)에서는 SAM3D가 일관적으로 가장 작은 값을 보여 형태 토폴로지를 가장 잘 보존함을 확인했다. 병변과 같은 비정형 구조는 특히 성능이 저하되었으며, 평면 선택(코로나·축) 역시 결과에 큰 영향을 미쳤다. 결론은 의료 분야에서 신뢰할 수 있는 3D 복원을 위해서는 도메인‑특화 적응과 해부학적 제약이 필수적이라는 것이다.
상세 분석
본 논문은 “단일 슬라이스 → 3D”라는 근본적인 문제 설정에서 시작한다. 의료 영상은 CT·MRI와 같이 횡단면이 거의 텍스처가 없고, 음영·그림자·폐색과 같은 깊이 단서가 자연 이미지에 비해 현저히 부족하다. 이러한 특성은 대규모 자연 이미지로 사전 학습된 파운데이션 모델이 내재한 기하학적 priors가 의료 슬라이스에 그대로 적용될 경우, 깊이 추정이 심각하게 언컨스트레인드되는 원인이 된다. 논문은 이를 검증하기 위해 5개의 최신 모델을 동일한 파이프라인(중간 슬라이스 추출 → 마스크 적용 → 2D 입력)으로 평가했으며, 평가 지표를 voxel‑based(F1, IoU, Dice)와 point‑cloud 기반(Chamfer Distance, Earth Mover’s Distance)으로 구분하였다.
Voxel‑based 결과는 모든 모델이 0.10 이하의 F1, 0.16 이하의 IoU, 0.26 이하의 Dice를 기록하며, 의료 데이터 전반에 걸쳐 일관된 저성능을 보였다. 이는 모델이 깊이 정보를 거의 복원하지 못하고, 입력 평면에 거의 평행한 얇은 평면 형태만을 생성한다는 것을 의미한다. 특히 병변 데이터(MSD Lung, Brain, Liver)는 비정형·비볼록 형태가 많아 더욱 낮은 점수를 기록했으며, 이는 자연 이미지에서 학습된 “부드럽고 구형에 가까운” 형태 편향이 병변에 적용되기 어려움을 시사한다.
반면 전역 거리 지표에서는 뚜렷한 순위가 나타났다. SAM3D는 모든 의료 데이터셋에서 Chamfer와 EMD가 가장 낮아, 비록 voxel‑level에서 깊이 오류가 크더라도 전체적인 형태 분포와 토폴로지를 가장 잘 보존한다는 점을 보여준다. Hi3DGen도 일부 데이터에서 비슷한 수준을 보였지만, 전반적으로 SAM3D가 우위다. 이는 SAM3D가 점군을 직접 생성하거나, 보다 정교한 전역 구조 학습 메커니즘을 갖추고 있어, 제한된 깊이 정보에서도 전체적인 형태를 추정하는 데 강점을 가진 것으로 해석된다.
또한, 코라날·축면 입력에 따른 성능 차이가 크게 나타났다. 같은 모델이라도 코라날 입력에서는 상대적으로 높은 점수를, 축면 입력에서는 낮은 점수를 기록하는 경우가 빈번했으며, 이는 입력 평면이 제공하는 실루엣 형태와 경계 정보가 모델의 복원 품질을 직접적으로 조절한다는 중요한 인사이트를 제공한다. 따라서 실제 임상 적용 시 어느 평면을 선택하느냐가 결과에 결정적인 영향을 미칠 수 있다.
자연 이미지 데이터(GSO, Animal3D)에서는 voxel‑IoU가 0.18~0.29 수준으로 의료 데이터보다 현저히 높았다. 이는 자연 이미지가 풍부한 색상·텍스처·그림자 정보를 제공해 모델이 깊이와 형태를 보다 정확히 추정할 수 있음을 입증한다. 특히 GSO에서는 SAM3D가 모든 지표에서 최고 성능을 보였으며, Animal3D에서는 TripoSG와 Hi3DGen이 경쟁력을 보이는 등, 데이터 특성에 따라 모델 우위가 변한다는 점도 강조된다.
결론적으로, 논문은 “단일 슬라이스 → 3D”가 현재 기술 수준에서는 근본적인 깊이 불확실성 때문에 voxel‑level 복원에서는 한계가 있음을 명확히 제시한다. 그러나 전역 형태 보존 측면에서는 SAM3D와 같은 모델이 유망하며, 이를 의료에 적용하려면 (1) 다중 평면·다중 뷰 입력을 통한 깊이 보강, (2) 해부학적 제약(예: 장기별 형태 모델, 물리적 부피 제한) 삽입, (3) 의료 데이터에 특화된 파인튜닝이 필요하다는 실질적인 로드맵을 제공한다. 이러한 전략 없이는 현재 파운데이션 모델만으로는 임상 수준의 정확한 3D 재구성을 기대하기 어렵다.
댓글 및 학술 토론
Loading comments...
의견 남기기