CLIP 편향을 교정한 무감독 의미분할 ReCLIP++
초록
본 논문은 CLIP을 무감독 의미분할에 적용할 때 발생하는 클래스‑선호 편향과 공간‑선호 편향을 명시적으로 모델링하고 교정한다. 학습 가능한 “Reference” 텍스트 프롬프트와 비전 트랜스포머의 위치 임베딩 투영을 이용해 각각의 편향을 추출하고, 이를 로그잇 차감 및 마스크 디코더를 통해 정제된 세그멘테이션 마스크를 생성한다. 대조 손실을 적용해 텍스트와 시각 특징을 정렬함으로써 편향 교정이 의미 있게 이루어지며, PASCAL VOC·Context, ADE20K, Cityscapes, COCO‑Stuff 등에서 기존 최첨단 방법들을 크게 앞선다.
상세 분석
ReCLIP++는 CLIP 기반 무감독 의미분할(USS)에서 두 가지 주요 편향, 즉 클래스‑선호 편향(class‑preference bias)과 공간‑선호 편향(space‑preference bias)을 체계적으로 분석하고 이를 정량화한다. 클래스‑선호 편향은 텍스트‑이미지 정렬이 이미지 수준에서는 우수하지만 픽셀 수준에서는 의미적으로 유사한 클래스 간 혼동을 일으키는 현상이다. 공간‑선호 편향은 이미지 중심부에 있는 객체는 높은 mIoU를 보이지만, 경계에 가까운 객체는 성능이 급격히 저하되는 현상으로, 이는 CLIP의 패치 레벨 특징이 이미지 중심에 더 강하게 집중된 결과로 해석된다.
이를 교정하기 위해 ReCLIP++는 두 종류의 텍스트 입력을 도입한다. 첫 번째는 고정된 “Query” 프롬프트로, 기존 CLIP이 제공하는 텍스트 임베딩을 그대로 사용해 원본 세그멘테이션 로그잇 M_q 를 생성한다. 두 번째는 학습 가능한 “Reference” 프롬프트로, 각 클래스마다 별도의 파라미터화된 토큰을 포함한다. Reference 프롬프트를 CLIP 텍스트 인코더에 통과시켜 얻은 Reference 특징 W_r 은 클래스‑선호 편향을 인코딩한다.
공간‑선호 편향은 비전 트랜스포머(ViT)의 위치 임베딩을 선형 투영해 패치 레벨 위치 특징 W_p 로 변환함으로써 모델링한다. W_r (C×D)와 W_p (N×D)의 행렬 곱을 수행하면 C×N 차원의 편향 로그잇 M_b 가 생성되며, 여기서 C는 클래스 수, N은 패치 수이다. 이 편향 로그잇은 원본 로그잇 M_q 에서 직접 빼는(logit‑subtraction) 방식으로 교정된다: M = M_q − M_b.
교정된 로그잇 M 은 시각 특징 Z (CLIP 비주얼 인코더 출력)와 함께 마스크 디코더에 입력된다. 디코더는 컨볼루션 블록과 업샘플링 레이어로 구성되며, 최종 출력에 Gumbel‑Softmax를 적용해 미분 가능한 이산 마스크를 생성한다. 이를 통해 경계가 부드럽고 컨텍스트 정보를 반영한 세그멘테이션 결과를 얻는다.
학습 목표는 두 부분으로 나뉜다. 첫째, Reference 프롬프트와 위치 투영 파라미터를 최적화해 편향 로그잇 M_b 가 실제 편향을 정확히 포착하도록 한다. 둘째, 교정된 마스크를 이용해 시각 특징을 마스킹하고, 이를 텍스트 특징과 대비시키는 대조 손실 L_contrast 를 적용한다. 구체적으로, 마스크된 시각 특징을 각 클래스 텍스트 임베딩과 내적해 양성 쌍을 강화하고, 다른 클래스와는 거리(유사도)를 최소화한다. CLIP 자체는 frozen 상태로 유지되어, 학습은 오직 편향 교정 모듈과 디코더에 국한된다.
실험 결과, ReCLIP++는 PASCAL VOC에서 기존 MaskCLIP+ 대비 +15.4% mIoU, CLIP‑S4 대비 +13.4% mIoU 향상을 달성한다. 또한 PASCAL Context, ADE20K, Cityscapes, COCO‑Stuff에서도 일관된 성능 개선을 보이며, 특히 공간‑선호 편향을 완화한 정량적 분석(거리‑mIoU 곡선)과 클래스‑선호 편향을 시각화한 혼동 행렬에서 눈에 띄는 개선을 확인한다. Ablation study에서는 Reference 프롬프트, 위치 투영, 로그잇 차감, 마스크 디코더, 대조 손실 각각의 기여도를 검증했으며, 특히 디코더와 대조 손실을 제거하면 성능이 급격히 하락한다는 점을 보여준다.
ReCLIP++는 기존 CLIP 기반 USS가 간과해 온 편향 문제를 명시적으로 모델링하고, 간단한 연산과 효율적인 디코더를 통해 실용적인 무감독 의미분할 솔루션을 제공한다. 향후 연구에서는 편향 교정 모듈을 다른 비전‑언어 모델에 일반화하거나, 다중 스케일 위치 특징을 도입해 더욱 정교한 공간 편향을 다루는 방향을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기