하이브리드 2D‑3D CNN으로 저샘플링 콘빔 CT 아티팩트 제거
초록
본 연구는 2D U‑Net으로 슬라이스별 특징을 추출하고, 이를 3D 디코더에 입력해 부피 일관성을 확보하는 하이브리드 네트워크를 제안한다. 128‑뷰 저샘플링 콘빔 CT에 적용했을 때, 축방향은 2D 모델과 비슷한 PSNR/SSIM을 보이지만, 관상·시상면에서의 아티팩트 감소와 인터‑슬라이스 일관성이 크게 향상된다. 2D 처리에 비해 3D 디코더는 약 8배의 연산 시간을 요구하지만, 메모리 효율적인 설계로 실용적인 수준을 유지한다.
상세 분석
이 논문은 저샘플링 콘빔 CT에서 발생하는 금속‑같은 스트라이프 아티팩트를 감소시키기 위해 2D와 3D 딥러닝의 장점을 결합한 두 단계 파이프라인을 설계하였다. 첫 단계에서는 전통적인 2D U‑Net 구조를 사용해 각 axial 슬라이스를 독립적으로 복원한다. 여기서 핵심은 2D 인코더가 5개의 다운샘플링 블록을 거쳐 32×32 해상도의 피처맵을 생성한다는 점이며, 이는 메모리 사용량을 최소화하면서도 풍부한 로컬 정보를 보존한다. 두 번째 단계에서는 이렇게 추출된 2D 피처맵을 N개의 연속 슬라이스에 대해 스택하여 3차원 텐서로 변환한다. 변환된 3D 피처는 동일한 U‑Net 디코더 구조를 3D 컨볼루션(3×3×3 커널)으로 확장한 3D 디코더에 입력된다. 3D 디코더는 슬라이스 간의 연속성을 학습함으로써 관상·시상면에서 흔히 나타나는 “스텝‑아트팩트”와 같은 불연속성을 효과적으로 제거한다.
데이터셋은 RSNA Pulmonary Embolism Challenge(2020)에서 제공된 7,279개의 폐동맥 CT를 활용했으며, 128개의 뷰만을 사용해 FDK와 ASTRA 툴박스로 저샘플링 재구성을 만든다. 2D U‑Net은 5,251개 훈련·1,313개 검증 슬라이스로 학습했으며, 3D 디코더는 150개 전체 볼륨을 훈련, 50개를 검증에 사용했다. 학습은 PyTorch Lightning 기반으로 MSE 손실과 AdamW 옵티마이저를 적용했으며, 2D 단계는 RTX 3090, 3D 단계는 A100 GPU에서 수행되었다.
정량적 결과는 PSNR 39.29 dB, SSIM 0.949를 2D U‑Net이 달성했으며, 3D 디코더는 PSNR 38.09 dB, SSIM 0.938을 기록했다. 2D 모델이 약간 높은 수치를 보인 이유는 3D 단계에서 사용된 훈련 볼륨 수가 제한적이었기 때문이며, 메모리 제약으로 인한 피처 저장 방식이 성능에 영향을 미쳤을 가능성이 있다. 처리 시간은 2D 후처리가 평균 2.4 s인 반면, 3D 디코더는 피처 추출 포함 20.3 s가 소요돼 2D 대비 약 8배 느리다. 그러나 3D 디코더는 관상·시상면에서 눈에 띄는 아티팩트 감소와 부피 일관성 향상을 제공한다는 점에서 임상적 가치가 있다.
한계점으로는 3D 디코더 학습에 사용된 데이터 양이 적고, 피처를 사전에 저장하는 방식이 I/O 병목을 일으킬 수 있다는 점을 들 수 있다. 향후 온‑더‑플라이 피처 추출, 멀티 GPU 분산 학습, 그리고 다운스트림 작업(예: 병변 검출, 자동 분할)에서의 성능 평가가 필요하다. 또한, 다양한 뷰 수(예: 64, 256)와 다른 스캔 기법에 대한 일반화 능력 검증도 중요한 과제로 남는다.
댓글 및 학술 토론
Loading comments...
의견 남기기