깊이 인식 효율적인 세그멘테이션 모델
초록
본 논문은 경량 Vision Transformer 기반 SAM인 EfficientViT‑SAM에 단일 이미지 깊이 추정 결과를 결합한 RGB‑D 융합 프레임워크를 제안한다. 사전 학습된 monocular depth estimator로부터 얻은 깊이 맵을 전용 깊이 인코더로 인코딩하고, RGB 특징과 가중합(α) 방식으로 중간 단계에서 융합한다. 전체 파라미터는 1억 1천만 수준으로 기존 EfficientViT‑SAM보다 두 배가 되지만, 11.2k 이미지(전체 SA‑1B의 0.1% 이하)만으로 4 epoch 학습해도 zero‑shot 성능이 향상된다. 특히 물체 경계와 작은 객체에서 깊이 정보가 강력한 기하학적 사전지식을 제공함을 실험적으로 입증한다.
상세 분석
이 연구는 두 가지 핵심 문제를 동시에 해결한다. 첫째, 기존 SAM 계열은 1억 개 이상의 마스크와 1천만 장 이상의 이미지로 사전 학습해야만 범용성을 확보할 수 있는데, 이는 데이터와 연산 비용이 매우 높다. 둘째, 대부분의 경량 변형 모델이 RGB 입력에만 의존해 텍스처가 부족하거나 경계가 모호한 상황에서 성능이 제한된다. 논문은 이러한 한계를 극복하기 위해 “Depth‑Aware EfficientViT‑SAM”이라는 프레임워크를 설계한다.
모델 구조는 크게 세 부분으로 나뉜다. (1) RGB 인코더는 EfficientViT‑SAM에서 사용된 경량 ViT 구조를 그대로 채택해, 초기 Conv‑Block → MBConv → EfficientViT 모듈 순으로 특징을 추출한다. (2) 깊이 인코더는 동일한 아키텍처를 사용하지만 파라미터를 별도로 학습한다. 깊이 맵은 사전 학습된 DepthAnything 모델로부터 얻으며, 3채널 복제 후 입력한다. (3) 융합 단계에서는 두 인코더의 중간 레벨 피처를 단순 가중합(F_fuse = F_rgb + α·F_depth)으로 결합한다. α는 학습 가능한 스칼라로, RGB 특징을 기본으로 하면서 깊이 정보를 적절히 보강한다. 이후 SAM의 기존 Prompt Encoder와 Mask Decoder에 그대로 전달되어 인터랙티브 세그멘테이션 파이프라인을 유지한다.
손실 함수는 기본적인 BCE와 Dice 손실에 가중치(λ_mask=20, λ_dice=1)를 부여하고, 추가적으로 IoU 회귀, 중간 예측 직접 지도, 경계 강조 손실을 포함한다. 이는 특히 얕은 깊이 인코더가 초기에 불안정할 수 있는 문제를 완화하고, 경계 정밀도를 높이는 데 기여한다.
학습 전략은 두 단계로 나뉜다. 첫 단계에서 깊이 인코더를 2 epoch만 독립적으로 학습시켜 깊이 특징을 초기화한다. 두 번째 단계에서는 전체 네트워크를 end‑to‑end로 4 epoch 학습한다. 전체 데이터는 SA‑1B에서 무작위 추출한 11.2k 이미지이며, 배치 사이즈 4, AdamW 옵티마이저(β1=0.9, β2=0.999)를 사용한다. 2대의 NVIDIA A6000 GPU에서 5시간 미만으로 학습이 완료된다.
실험 결과는 세 가지 측면에서 깊이 융합의 효과를 입증한다. (1) 런타임 측면에서 EfficientViT‑SAM‑L2는 62.8 img/s, 제안 모델은 31.9 img/s로 약 2배 느리지만, 파라미터와 MACs가 SAM‑ViT‑H(>600M, 3000G)보다 현저히 낮아 실용적이다. (2) 정량적 평가에서는 COCO와 LVIS에서 박스‑프롬프트, 포인트‑프롬프트 모두에서 mIoU와 AP가 향상되었으며, 특히 작은 객체와 복잡한 경계에서 13%p 이상의 개선을 보였다. (3) 정성적 시각화는 깊이 정보가 물체 경계를 명확히 구분하고, 텍스처가 부족한 영역에서 정확한 마스크를 생성함을 보여준다.
한계점으로는 깊이 인코더가 파라미터와 연산량을 거의 두 배로 증가시킨다는 점이다. 또한 깊이 추정 품질에 크게 의존하므로, 실외 조명 변화나 반사면에서 깊이 오류가 발생하면 세그멘테이션 성능이 저하될 가능성이 있다. 향후 연구에서는 경량화된 깊이 인코더 설계, 멀티‑스케일 깊이 피처 활용, 그리고 깊이 불확실성 모델링을 통해 이러한 문제를 완화할 수 있다.
전반적으로 이 논문은 “깊이 사전지식”이 제한된 데이터 환경에서도 강력한 기하학적 힌트를 제공한다는 점을 실증적으로 입증했으며, 경량 SAM 변형에 RGB‑D 융합을 적용하는 실용적인 설계와 학습 파이프라인을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기