눈 이미지 분할에서 SAM3의 시각·텍스트 프롬프트 성능 평가
본 논문은 최신 Segment Anything Model 3(SAM3)의 시각 프롬프트와 새롭게 도입된 개념(텍스트) 프롬프트가 눈 이미지 분할에 미치는 영향을 SAM2와 비교한다. 고해상도 실험실 영상과 야외 TEyeD 데이터셋을 이용해 pupil, iris, sclera, corneal reflection을 대상으로 정량적 평가를 수행했으며, SAM3가 전반적으로 SAM2보다 정확도와 속도 모두에서 뒤처진다는 결론을 도출하였다. 또한 SAM…
저자: Diederick C. Niehorster, Marcus Nyström
본 논문은 눈 이미지 분할 작업에 최신 비전 파운데이션 모델인 Segment Anything Model 3(SAM3)를 적용하고, 기존 모델인 SAM2와의 성능을 종합적으로 비교한다. 연구 배경으로는 눈 트래킹에서 pupil, iris, sclera, corneal reflection(CR) 등 여러 해부학적 특징을 정확히 검출·로컬라이즈하는 것이 중요하다는 점을 들며, 기존에는 전통적인 이미지 처리 기법이나 대규모 라벨링이 필요한 딥러닝 모델에 의존해 왔다. 최근 Vision Foundation Model이 제로샷(zero‑shot) 성능을 보여주면서, SAM 시리즈가 눈 이미지 분할에서도 경쟁력 있는 결과를 보여주었다는 선행 연구들을 소개한다.
연구 질문은 두 가지이다. 첫째, SAM3의 시각 프롬프트(이미지 내에 객체를 직접 지정하는 방식)가 SAM2보다 정확도가 높을지 여부; 둘째, SAM3가 새롭게 도입한 개념(텍스트) 프롬프트가 시각 프롬프트에 비해 실용적이며 성능이 우수한지 여부이다. 이를 검증하기 위해 두 종류의 데이터셋을 사용했다. (1) 고해상도·고품질 실험실 영상: FLEX 설정으로 1000 Hz에서 촬영된 2.87 백만 프레임의 데이터, 참가자별로 중앙 시점 이미지에 CR, pupil, iris, sclera에 대한 긍정·부정 프롬프트를 배치하고 필요 시 추가 프롬프트를 수동으로 보강하였다. (2) 야외 TEyeD 데이터셋: 14.44 백만 프레임 규모로, 다양한 헤드‑마운트 디바이스(VR, AR, 안경형)와 일상 상황에서 수집된 영상이며, 각 프레임에 대해 pupil, iris, eyelid(팔프리컬 피스처) 라벨이 제공된다.
모델 설정은 SAM2의 가장 큰 변형인 sam2.1_hiera_large와 SAM3의 단일 공개 모델(sam3.pt)이다. 세 가지 하드웨어 환경(A, B, C)에서 VRAM 사용량과 프레임당 처리 속도를 측정했으며, SAM2는 약 10 GB VRAM을 사용해 1 ~ 13 fps, SAM3는 7.5 ~ 20 GB 사이에서 0.6 ~ 13 fps를 기록했다. 특히 개념 프롬프트는 시스템 A에서만 실행했으며, 초기 11 fps에서 70 000프레임 이상으로 늘어날수록 0.5 fps로 급격히 감소했다.
성능 평가는 두 단계로 나뉜다. 실험실 데이터에서는 RMS‑S2S(200 ms 이동 윈도우) 정밀도와 데이터 손실률을 사용했다. RMS‑S2S는 눈 특징 신호의 잡음 수준을 나타내며, 값이 낮을수록 정밀도가 높다. 결과는 SAM3 시각 프롬프트가 모든 특징(CR, pupil, iris)에서 SAM2보다 현저히 낮은 정밀도를 보였으며, 평균적으로 CR는 64 % 악화, pupil은 112 % 악화, iris는 28 % 악화했다. 개념 프롬프트(“pupil”)는 정밀도가 875 %로 가장 낮았으며, 이는 다중 객체 반환과 추적 로직의 한계 때문으로 해석된다. 데이터 손실률은 전반적으로 낮았지만, CR와 pupil에서 SAM2가 약간 더 낮은 손실률을 기록했다.
야외 TEyeD 데이터에서는 IoU(Intersection‑over‑Union)와 추가 메트릭(거짓 알람율, 누락율, Youden’s J)을 사용했다. SAM3 시각 프롬프트는 평균 IoU가 SAM2보다 낮았으며, 특히 sclera 마스크가 iris 영역을 과다 포함하는 현상이 두드러졌다. 개념 프롬프트는 “iris”와 “sclera”에 대해 전혀 응답하지 않아 평가에 포함되지 못했으며, 이는 현재 텍스트 프롬프트가 눈 구조와 같은 세밀한 객체를 인식하는 데 한계가 있음을 보여준다.
논의에서는 성능 차이의 원인을 여러 측면에서 분석한다. 첫째, SAM3는 Perception Encoder를 사용해 전역‑지역 특징을 강화했지만, 눈 이미지처럼 고해상도·미세 구조가 중요한 도메인에서는 기존 HieraDet 기반 인코더가 더 적합했을 가능성이 있다. 둘째, 프롬프트 설계가 눈 이미지 특성에 최적화되지 않아 특히 부정 프롬프트가 충분히 작동하지 않았다. 셋째, 텍스트 프롬프트는 사전 학습된 언어‑시각 정합성에 의존하는데, “pupil”, “iris”, “sclera”와 같은 전문 용어가 일반 이미지 코퍼스에 충분히 반영되지 않아 응답이 제한적이었다. 넷째, 하드웨어 의존성이 크게 나타났으며, 특히 시스템 C에서 VRAM 초과로 처리 속도가 급격히 저하된 점은 실시간 적용 가능성을 저해한다.
결론적으로, 최신 모델이 반드시 모든 도메인에서 우수한 성능을 보장하지 않으며, 눈 이미지 분할에서는 SAM2가 정확도와 처리 효율성 모두에서 현재 최선의 선택임을 확인했다. 연구팀은 SAM3를 임의 길이 비디오에 적용할 수 있도록 코드베이스를 수정·오픈소스로 공개했으며, 이는 향후 다른 분야에서 SAM3의 확장 가능성을 탐색하는 데 기여할 수 있다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기