프로젝션 기반 2.5D U‑Net으로 빠른 3차원 영상 분할

본 논문은 3D 컨볼루션 없이 최대 강도 투영(MIP) 이미지를 활용해 2D U‑Net을 적용하고, 학습 가능한 역투영 및 후처리 모듈을 통해 3D 볼륨을 재구성하는 2.5D U‑Net 구조를 제안한다. 제안 모델은 3D U‑Net 대비 메모리 사용량을 크게 줄이고, 학습 시간을 15배 가량 단축하면서도 분할 정확도에서 우수한 성능을 보인다.

저자: Christoph Angermann, Markus Haltmeier, Ruth Steiger

프로젝션 기반 2.5D U‑Net으로 빠른 3차원 영상 분할
본 논문은 3차원 의료 영상의 자동 분할을 위해 3D 컨볼루션을 사용하지 않는 새로운 네트워크 구조를 제안한다. 기존 3D U‑Net은 높은 정확도를 제공하지만, 96×288×224와 같은 대용량 볼륨을 처리할 때 메모리 요구량이 8 GB를 초과하고, 학습 시간이 수십 시간에 달한다. 저자들은 이러한 문제를 해결하고자 ‘Projection‑Based 2.5D U‑Net’이라는 프레임워크를 고안하였다. 먼저, 입력 3D 볼륨에 대해 여러 방향(본 논문에서는 12개의 등간격 각도)으로 최대 강도 투영(MIP)을 수행한다. MIP는 각 방향에서 가장 밝은 voxel 값을 2D 이미지로 압축해, 전체 3D 구조 정보를 손실 없이 2D 평면에 담는다. 이렇게 얻은 MIP 이미지들은 동일한 2D U‑Net에 입력되어 전경(혈관) 확률 맵을 출력한다. 여기서 사용된 2D U‑Net은 전통적인 contracting‑expanding 구조를 갖으며, 3×3 필터, 배치 정규화, 드롭아웃 등을 포함한다. Dice‑loss를 최적화 목표로 삼아 학습한다. MIP 기반 2D 예측만으로는 역투영 시 ‘쉐도우’ 현상이 발생한다. 이를 보완하기 위해 각 투영 방향마다 1×3 학습 가능한 필터(Fₚ)를 적용해 2D 확률 맵을 전처리한다. 이후 역투영 연산(Rₚ)을 통해 각 방향의 2D 결과를 voxel‑wise로 합산한다. 합산된 볼륨은 평균 풀링(2×2×2)과 학습 가능한 시프트 연산(T)을 거쳐 최종 시그모이드 함수를 적용, 최종 3D 분할 마스크를 생성한다. 전체 파이프라인은 N(x)=T∘Rₚ∘Fₚ∘U∘M₁…Mₚ(x) 로 수식화된다. 실험은 인스부르크 대학 병원의 119명 환자 MRA 스캔을 사용했다. 데이터는 96×288×224 voxel 크기의 3D 이미지와 손으로 만든 라벨(혈관)로 구성된다. 먼저 2D slice‑by‑slice U‑Net을 적용한 결과는 Dice‑loss 0.849, 정확도 54.5 % 등 매우 낮은 성능을 보였다. 3D U‑Net은 메모리 제한으로 배치 크기 1을 사용했으며, 학습 시간 969 분(≈16 h)과 메모리 >8 GB를 요구했지만, Dice‑loss 0.254, 정확도 87.3 %를 기록했다. 제안된 2.5D U‑Net은 학습 시간 3914 초(≈1.1 h), 메모리 3.7 GB, Dice‑loss 0.201, 정확도 91.6 %를 달성해 3D U‑Net보다 빠르고 정확했다. 또한 적용 시간은 11.37 초로, MIP 생성 비용을 포함해도 실시간에 가까운 속도를 보였다. 결론적으로, 2.5D U‑Net은 3D 볼륨을 2D 투영으로 변환해 연산량을 크게 줄이면서도 충분한 전역 정보를 유지한다. 메모리와 시간 효율성 측면에서 대규모 의료 영상 처리에 적합하며, 향후 무작위 혹은 적응형 투영 방향, 데이터 증강, 다른 의료 분야 적용 등을 통해 성능을 더욱 향상시킬 수 있다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기