실제 제로샷 위장 객체 분할을 위한 새로운 프레임워크
초록
본 논문은 위장 객체(캠플라주) 분할에 필요한 픽셀 수준의 라벨링 없이도 제로샷으로 높은 정확도를 달성할 수 있음을 입증한다. 마스크드 이미지 모델링(MIM) 기반 이미지 인코더와 파라미터 효율 파인튜닝(PEFT), 다중 모달 대형 언어 모델(M‑LLM) 및 다중 스케일 정밀 정렬(MFA) 메커니즘을 결합하고, 추론 시 M‑LLM을 대체하는 학습 가능한 코드북을 도입해 연산량을 크게 낮추면서도 CAMO와 COD10K 데이터셋에서 각각 72.9 %·71.7 %의 Fβʷ 점수를 기록한다.
상세 분석
이 연구는 위장 객체 분할(COS)이 기존에 대규모 픽셀 라벨링에 크게 의존해 왔던 한계를 극복하고자 ‘제로샷’ 접근법을 제시한다. 핵심 아이디어는 두 가지 상반된 특성을 동시에 만족시키는 것이다. 첫째, COS는 물체와 배경이 시각적으로 거의 구분되지 않기 때문에 고주파(세부) 정보를 포착하는 로컬 패턴이 필수적이다. 둘째, 제로샷 학습에서는 풍부한 의미적 정보를 제공하는 전역 컨텍스트가 필요하다. 이를 위해 저자는 MIM 사전학습으로 로컬 텍스처와 경계 정보를 강화한 이미지 인코더를 선택하고, 이후 Salient Object Segmentation(SOS) 데이터셋을 이용해 전역 의미를 학습한다. 전역·로컬 정보를 동시에 보존하기 위해 파라미터 효율 파인튜닝(PEFT, 어댑터·LoRA 등)을 적용해 기존 가중치는 고정하고 소수의 어댑터만 업데이트한다.
다음 단계에서는 다중 모달 대형 언어 모델(M‑LLM)을 활용해 이미지에 대한 캡션 임베딩을 생성한다. 캡션은 “camouflaged animal in foliage”와 같이 계층적 의미를 제공하며, 이러한 텍스트 임베딩을 이미지 피처와 다중 스케일 정밀 정렬(MFA) 모듈을 통해 정합한다. MFA는 서로 다른 해상도(저해상도 전역, 고해상도 로컬)에서 추출된 비주얼 피처와 텍스트 피처를 교차 attention 방식으로 결합해, 물체 경계와 의미적 컨텍스트를 동시에 고려한 통합 표현을 만든다.
추론 단계에서 M‑LLM을 그대로 사용하면 높은 연산 비용이 발생한다는 점을 인식하고, 저자는 M‑LLM이 학습 과정에서 제공한 의미적 프롬프트를 압축한 ‘학습 가능한 코드북’을 설계한다. 코드북은 고정된 수의 토큰(예: 256)으로 구성되며, 각 토큰은 M‑LLM이 생성한 캡션 임베딩의 클러스터 중심을 근사한다. 이렇게 하면 추론 시 텍스트 인코더 없이도 코드북 토큰을 직접 조회해 의미 정보를 제공받을 수 있어 18.1 FPS라는 실시간 수준의 속도를 달성한다.
실험 결과는 두 가지 관점에서 의미 있다. 첫째, 제로샷 설정에서도 기존 약지도(weak‑supervision) 기반 방법들을 능가한다. 둘째, 동일 구조를 그대로 사용해 폴립 세그멘테이션, 수중 장면 세그멘테이션 등 다른 도메인에도 적용했을 때도 경쟁력 있는 성능을 보이며, 프레임워크의 일반화 가능성을 입증한다.
한계점으로는 코드북 학습 과정이 M‑LLM에 비해 상대적으로 제한된 표현력을 가질 수 있다는 점과, SOS 데이터에 의존하는 전역 의미 학습이 특정 도메인(예: 의료 영상)에서는 충분히 일반화되지 않을 가능성이 있다. 향후 연구에서는 다중 도메인 SOS 데이터와 더 큰 코드북을 결합하거나, 동적 코드북 업데이트 메커니즘을 도입해 이러한 문제를 보완할 수 있을 것이다.
댓글 및 학술 토론
Loading comments...
의견 남기기