SAM2‑UNet: 자연·의료 영상 분할을 위한 강력한 엔코더
초록
**
본 논문은 Segment Anything Model 2(SAM2)의 Hiera 백본을 U‑Net 구조의 인코더로 활용하고, 파라미터 효율적인 어댑터를 삽입한 SAM2‑UNet을 제안한다. 다양한 자연·의료 이미지 분할 벤치마크(위장 객체, 눈에 띄는 객체, 해양 동물, 거울 영역, 폴립)에서 기존 최첨단 방법들을 능가하는 성능을 보이며, 복잡한 설계 없이도 높은 확장성과 효율성을 입증한다.
**
상세 분석
**
SAM2‑UNet은 두 가지 핵심 아이디어에 기반한다. 첫째, SAM2가 공개한 Hiera 계층형 백본을 인코더로 채택함으로써 다중 스케일 특징을 자연스럽게 추출한다. 기존 SAM1이 사용한 평면 ViT와 달리 Hiera는 단계별 토큰 풀링과 윈도우 기반 어텐션을 결합해 고해상도와 저해상도 정보를 동시에 보존한다. 이는 U‑Net 형태의 디코더와 연결될 때 스킵 연결을 통한 세밀한 경계 복원에 유리하다. 둘째, 전체 Hiera 파라미터(≈214 M)를 고정하고 각 계층 앞에 경량 어댑터(다운샘플 → GeLU → 업샘플 → GeLU)를 삽입한다. 어댑터는 전체 파라미터의 1 % 이하만 학습하므로 GPU 메모리 부담을 크게 낮추면서도 도메인 특화된 미세조정이 가능하다.
디코더는 전통적인 U‑Net 설계를 그대로 따르며, 3개의 디코더 블록 각각에 Conv‑BN‑ReLU 두 번을 쌓고 1×1 컨볼루션으로 마스크를 예측한다. 다중 출력(S₁, S₂, S₃)에 대해 가중 IoU와 BCE 손실을 결합한 복합 손실을 적용하고, 깊이 감독을 통해 각 단계에서의 학습 신호를 강화한다.
실험에서는 18개의 공개 데이터셋(5개 벤치마크)에서 Hiera‑Large를 기본으로 사용했으며, 어댑터만 학습한 파라미터 효율성에도 불구하고 기존 전용 설계 모델(SINet, PFNet, ZoomNet, FEDER 등)을 전반적으로 앞선 결과를 기록했다. 특히 위장 객체 검출에서 S‑measure 0.914, 폴립 분할에서 mDice 0.928 등 눈에 띄는 개선을 보였다.
추가적인 Ablation 연구에서는 백본 크기를 Hiera‑Tiny, Small, Base+, Large 순으로 확대했을 때 성능이 점진적으로 상승함을 확인했다. 이는 SAM2 사전 학습된 대규모 백본이 다양한 도메인에 일반화 가능한 특징을 제공한다는 증거이며, 어댑터만으로도 충분히 특화된 성능을 끌어낼 수 있음을 보여준다.
전체적으로 SAM2‑UNet은 “간단함·효율성·효과성”이라는 세 축을 모두 만족한다. 복잡한 프롬프트 엔코더나 메모리 은닉층을 배제하고도, Hiera 백본의 풍부한 표현력과 어댑터 기반 파라미터 절감 전략을 결합해, 연구자와 실무자가 손쉽게 적용할 수 있는 새로운 베이스라인을 제공한다. 향후 SAM2 기반 변형 모델 개발 시, 이 구조를 토대로 다양한 멀티모달 입력(텍스트, 이미지 샘플)이나 경량화된 모바일 배포까지 확장 가능성이 높다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기