3D 의료 영상 분할을 위한 하이브리드 Mamba SAM 모델
초록
본 논문은 대규모 사전학습 기반인 Segment Anything Model(SAM)을 고정하고, 효율적인 상태공간 모델인 Mamba를 결합한 두 가지 파라미터 효율적 적응 방식을 제안한다. 하나는 일반화된 SAM 특징과 의료 특화 VMamba 특징을 교차‑주의로 융합하는 듀얼‑브랜치 구조이며, 다른 하나는 SAM ViT 인코더 내부에 가벼운 3D‑Tri‑Plane Mamba 어댑터와 Multi‑Frequency Gated Convolution(MFGC) 모듈을 삽입하는 어댑터 기반 구조이다. ACDC 심장 MRI 데이터셋에서 듀얼‑브랜치 모델은 평균 Dice 0.906으로 UNet++와 동등한 성능을 보였고, 어댑터 기반 모델은 4.77 FPS의 추론 속도와 0.880 Dice의 경쟁력 있는 정확도를 달성하였다.
상세 분석
본 연구는 의료 영상 분야에서 대규모 비전 파운데이션 모델인 SAM의 적용 한계를 두 가지 축으로 분석한다. 첫째, 자연 이미지 위주 사전학습으로 인한 도메인 쉬프트가 의료 영상의 텍스처·대조·노이즈 특성과 크게 다르기 때문에 직접적인 제로샷 성능이 저하된다. 둘째, SAM은 2D ViT 기반으로 설계돼 있어 3D 볼륨 데이터를 슬라이스 단위로 처리할 경우 축간 연속성이 손실된다. 이러한 문제를 해결하기 위해 저자는 SAM 인코더를 완전히 고정(frozen)하고, 경량화된 Mamba 기반 모듈을 추가함으로써 파라미터 효율성을 확보한다. Mamba는 상태공간 모델(SSM)의 일종으로, 입력에 따라 동적으로 A, B, C 행렬을 조정하는 선택적 스캔 메커니즘을 통해 O(N) 시간·메모리 복잡도를 제공한다. 이는 고해상도 3D 의료 영상에서 필연적으로 발생하는 긴 시퀀스 길이를 효율적으로 처리할 수 있게 한다.
두 가지 적응 전략은 설계 목표가 다소 상이하다. 듀얼‑브랜치 구조는 일반화된 SAM 특징(Fsam)과 의료 특화 VMamba 특징(Fmamba)을 명시적으로 분리하고, Cross‑Branch Attention(CBA)에서 Fmamba를 Query, Fsam을 Key·Value로 사용해 도메인‑특화 정보를 일반 지식에 가중치 형태로 주입한다. 이 과정에서 Residual 연결을 통해 원본 SAM 특징을 보존하면서도 세밀한 의료 정보를 보강한다. 반면 어댑터 기반 구조는 SAM ViT 블록 내부에 TP‑Mamba 어댑터를 삽입한다. 입력 토큰을 저차원으로 투영한 뒤 3D 볼륨 형태로 재구성하고, 로컬 3D 컨텍스트 경로와 축별(축축) 글로벌 컨텍스트 경로를 병렬 처리한다. 각 경로는 Mamba 블록을 통해 장거리 의존성을 모델링하고, 최종적으로 다시 SAM 차원으로 복원한다. 여기서 핵심은 Multi‑Frequency Gated Convolution(MFGC)이다. 3D DCT를 이용해 주파수 도메인 특징을 추출하고, 공간 특징과 주파수 특징을 적응형 게이트로 결합함으로써 고주파 노이즈 억제와 저주파 구조 보강을 동시에 달성한다.
실험 결과는 두 접근법의 트레이드오프를 명확히 보여준다. 듀얼‑브랜치 Mamba‑SAM‑Base는 평균 Dice 0.906으로 UNet++(0.907)와 거의 동등하지만, Myocardium(0.910)과 Left Ventricle(0.971)에서 최고 성능을 기록한다. 이는 고해상도 세그멘테이션에서 세밀한 구조를 정확히 복원하는 데 강점이 있음을 의미한다. 반면 TP‑MFGC 어댑터는 4.77 FPS라는 높은 추론 속도와 0.880 Dice라는 충분히 실용적인 정확도를 제공한다. 파라미터 수와 연산량이 크게 감소하면서도 3D 컨텍스트를 효과적으로 모델링한다는 점에서 임상 현장 적용 가능성이 높다.
또한, 본 논문은 기존 SAM‑Mamba 결합 연구와 차별화된다. 기존 연구는 주로 2D 작업에 Mamba를 적용하거나, SAM 전체를 미세조정하는 방식에 머물렀다. 여기서는 SAM을 완전히 고정하고, 경량 Mamba 모듈만을 학습함으로써 파라미터 효율성을 극대화하고, 3D 볼륨 특성을 직접 반영하는 어댑터 설계와 주파수‑공간 융합 기법을 도입했다. 이러한 설계는 대규모 의료 데이터가 부족한 상황에서도 적은 GPU 메모리와 짧은 학습 시간으로 높은 성능을 얻을 수 있게 한다.
요약하면, 본 연구는 (1) SAM의 일반화 능력과 (2) Mamba의 선형 복잡도·긴 의존성 모델링을 결합한 하이브리드 아키텍처를 제안하고, (3) 두 가지 파라미터‑효율적 적응 전략을 통해 3D 의료 영상 세그멘테이션에서 정확도와 속도 사이의 균형을 성공적으로 맞추었다는 점에서 의미가 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기