대규모 모델을 활용한 오픈보카블리 시맨틱 분할 혁신
초록
본 논문은 대형 언어 모델과 이미지 분할 모델을 결합해, 풍부한 속성 기반 텍스트 프롬프트와 SAM‑CLIP 융합 시각 특징을 이용한 오픈보카블리 시맨틱 분할 프레임워크 LMSeg을 제안한다. LLM이 생성한 색·형태·질감 등 다중 속성 설명을 텍스트 인코더에 입력하고, SAM의 고해상도 공간 정보를 가중합으로 CLIP 특징에 보강한다. 또한 카테고리 필터링 모듈로 비용 맵 차원을 축소해 효율성을 높이며, 다양한 벤치마크에서 기존 최첨단 대비 mIoU와 속도 모두 향상된 결과를 보인다.
상세 분석
LMSeg은 오픈보카블리 시맨틱 세그멘테이션(OVSS)에서 가장 큰 두 가지 병목, 즉 텍스트 프롬프트의 표현력 부족과 CLIP 기반 시각 특징의 픽셀‑레벨 한계를 동시에 해결한다. 첫 번째로, 저자들은 GPT‑4를 활용해 각 클래스에 대해 색상, 형태, 크기, 질감·재질, 위치·패턴·동작·맥락 관계 등 9가지 속성을 자동으로 추출하고, 각각을 77 토큰 이하의 자연어 문장으로 변환한다. 이렇게 생성된 속성‑풍부 프롬프트는 기존 “a photo of {class}” 템플릿보다 의미적 다양성이 크게 확대되어, CLIP 텍스트 인코더가 출력하는 임베딩이 클래스 간 미세 차이를 더 잘 구분하도록 만든다. 특히, 속성별 기여도를 사전 실험으로 평가하고 상위 k개 속성을 조합함으로써 프롬프트 길이와 성능 사이의 최적 균형을 찾는다.
두 번째로, 시각 특징 보강을 위해 SAM(Segment Anything Model)의 이미지 인코더 출력을 그대로 사용한다. SAM은 고해상도 마스크와 풍부한 지역 정보를 제공하지만, 원본 파라미터는 고정(frozen) 상태로 유지한다. 저자들은 경량 어댑터를 통해 SAM 특징을 CLIP 특징과 동일 차원으로 투영하고, 로컬·글로벌 두 경로에서 학습 가능한 가중치 α를 생성한다. 최종 융합 특징 Eₖ = α·F_c,ₖ + (1‑α)·F_s,ₖ는 각 레이어마다 동적으로 CLIP과 SAM의 기여도를 조절한다. 이후 Swin‑Transformer 블록과 선형 트랜스포머를 거쳐 공간‑레벨 및 클래스‑레벨 정보를 재정제하고, 업샘플링 단계에서 최종 세그멘테이션 맵을 만든다.
효율성 측면에서는 카테고리 필터링 모듈(CFM)이 핵심 역할을 한다. 비용 맵 M(i,j,n)은 시각 특징과 텍스트 임베딩의 코사인 유사도로 정의되는데, 클래스 수가 많을 경우 메모리·연산 부담이 급증한다. CFM은 각 이미지에 대해 텍스트 토큰별 최대 응답값 A를 계산하고, 사전 정의된 상위 q개 토큰만 선택해 정규화된 텍스트 임베딩 T′를 재구성한다. 이렇게 축소된 토큰 집합을 사용해 다시 비용 맵 M′을 계산함으로써, 불필요한 클래스에 대한 연산을 크게 줄이고, 동시에 노이즈 토큰에 의한 오염을 방지한다.
실험 결과는 LMSeg이 기존 ZegFormer, OV‑Seg, CATSeg, SED 등 주요 오픈보카블리 세그멘테이션 모델을 모두 앞선다는 것을 보여준다. 특히, mIoU 20.3%를 달성하면서도 추론 지연시간이 경쟁 모델보다 낮아 실시간 응용 가능성을 시사한다. Ablation study를 통해 LLM‑생성 프롬프트, SAM‑CLIP 융합, CFM 각각이 성능 향상에 기여함을 정량적으로 입증한다. 전체적으로 LMSeg은 텍스트와 시각 양쪽 모두에서 대규모 사전학습 모델을 효율적으로 활용함으로써, 오픈보카블리 시맨틱 세그멘테이션 분야에 새로운 패러다임을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기