3D치아분할을 위한 SAM2 적응 기술

3D치아분할을 위한 SAM2 적응 기술
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 2D 비전 기반 대형 사전학습 모델인 SAM2를 3D 치아 메쉬 분할에 적용하기 위해 이미지 렌더링, 프롬프트 자동 생성, 마스크 정제 및 분류 모듈을 경량 어댑터 형태로 추가하고, 이미지 인코더에 Deformable Global Attention Plugin을 삽입한 3DTeethSAM 프레임워크를 제안한다. 다중 뷰 렌더링‑투‑3D 투표와 그래프 컷 후처리를 통해 고해상도 치아 모델에서 평균 IoU 91.90%를 달성, 기존 3D 치아 분할 방법들을 크게 능가한다.

상세 분석

3DTeethSAM은 기존 3D 치아 분할 연구가 직면한 두 가지 근본적인 한계—복잡한 해부학적 변이와 라벨 데이터 부족—를 해결하기 위해 2D 기반 대형 사전학습 모델인 SAM2를 활용한다. SAM2는 이미지와 비디오에 대해 프롬프트 기반 마스크를 생성하는 강력한 백본을 제공하지만, 3D 도메인에 바로 적용하기 위해서는 (1) 2D‑3D 차원 불일치, (2) 프롬프트 의존성, (3) 클래스 무관성이라는 세 가지 장애물을 극복해야 한다. 논문은 이를 다음과 같이 구조화한다.

  1. 다중 뷰 렌더링 및 2D‑3D 투표: 원본 3D 치아 메쉬를 512×512 해상도의 RGB 이미지로 정규화·회전 후, 정면·후면·측면 등 고정된 카메라 각도에서 다수의 뷰를 렌더링한다. 각 뷰는 SAM2에 입력되어 2D 마스크를 얻고, 투표 기반 집계와 그래프 컷을 통해 3D 공간으로 역투영한다. 이 과정은 복잡한 치아 구조가 어느 한 뷰에 가려지더라도 다른 뷰에서 보완될 수 있게 하여, 고해상도 메쉬에서도 안정적인 라벨링을 가능하게 한다.

  2. 경량 어댑터 설계

    • Prompt Embedding Generator: 기존 SAM2는 외부에서 제공되는 포인트·박스·마스크 프롬프트에 의존한다. 저자는 Transformer 디코더 기반의 자동 프롬프트 생성기를 도입해 이미지 임베딩으로부터 16개의 쿼리(치아 개수)와 각각의 존재 확률을 학습한다. 이는 프롬프트 선택 비용을 없애고, 치아 간 상대적 위치 관계를 모델이 스스로 파악하도록 만든다.
    • Mask Refiner: SAM2가 생성한 16채널 coarse mask는 경계가 흐릿하고 작은 디테일을 놓치기 쉽다. 이를 보완하기 위해 UNet 구조의 마스크 정제기를 도입, 원본 이미지, coarse mask, SAM2 이미지 임베딩을 동시에 입력받아 다중 스케일 특징을 융합한다. 결과적으로 치아 경계가 날카롭게 복원되고, 특히 인접 치아 사이의 경계 혼합 현상이 크게 감소한다.
    • Mask Classifier: 채널-아이디 매핑을 고정하면 결손 치아나 비정상 배열에서 채널이 잘못 매핑되는 문제가 발생한다. 저자는 프롬프트 생성기와 동일한 Transformer 디코더를 이용해 각 채널에 대한 클래스 확률 벡터를 예측한다. 이를 통해 존재하지 않는 치아는 자동으로 ‘배경’으로 분류되고, 실제 존재하는 치아는 정확히 식별된다.
  3. Deformable Global Attention Plugin (DGAP): SAM2 이미지 인코더는 ViT 기반 전역 어텐션을 사용하지만, 치아와 같은 작은 ROI에 집중하기엔 전역 샘플링이 비효율적이다. DGAP은 전역 어텐션 단계에서 동적으로 오프셋을 학습해 관심 영역을 재배치하고, deformable grid sampling을 통해 중요한 치아 특징을 강조한다. 실험 결과, DGAP을 삽입하면 학습 수렴 속도가 15% 가량 빨라지고, 최종 IoU가 0.7% 상승한다.

  4. 학습 전략 및 실험: SAM2의 사전학습 가중치는 고정하고, 위의 경량 모듈과 DGAP만을 미세조정한다. 이는 대규모 2D 사전학습 지식을 보존하면서 파라미터 수를 수십만 개 수준으로 제한한다. 3DTeethSeg 벤치마크(고해상도 메쉬, 16개 치아 라벨)에서 기존 PointNet++, TSGCNet, TSRNet 등과 비교해 평균 IoU 91.90%를 기록, 특히 경계 정확도와 결손 치아 처리에서 현저히 우수함을 보였다.

핵심 인사이트는 2D 대형 사전학습 모델을 3D 도메인에 직접 적용하기보다, (i) 다중 뷰 렌더링으로 2D‑3D 간 격차를 메우고, (ii) 프롬프트 자동 생성·마스크 정제·클래스 인식이라는 세 단계 어댑터를 경량화하여 SAM2의 강점을 그대로 활용한다는 점이다. 또한 DGAP을 통한 어텐션 재조정은 2D 기반 모델이 3D 구조물의 작은 ROI에 집중하도록 돕는 일반화 가능한 설계 패턴으로, 향후 의료·제조 분야의 3D 세그멘테이션에도 확장 가능성이 크다.


댓글 및 학술 토론

Loading comments...

의견 남기기