시각‑언어 모델을 위한 인과 기반 프롬프트 학습과 시각 입자화
초록
본 논문은 CLIP 기반 비전‑언어 모델에 대해 미세한 클래스 차이를 포착하도록 설계된 새로운 프롬프트 학습 방법인 CaPL을 제안한다. CaPL은 시각 특징을 ‘비개별화 속성’과 ‘개별화 속성’으로 분해하는 속성 분리 모듈과, 이 두 속성을 조합해 ‘시각 입자(Granule)’를 생성하고 인과 추론을 통해 텍스트 프롬프트를 학습하는 입자화 모듈로 구성된다. 15개 데이터셋, 특히 세밀한 구분이 요구되는 fine‑grained 데이터셋에서 기존 최첨단 방법들을 크게 능가한다.
상세 분석
CaPL은 크게 두 단계로 나뉜다. 첫 번째는 속성 분리(Attribute Disentanglement) 모듈로, 여기서는 사전 학습된 CLIP 이미지 인코더가 추출한 시각 특징 xᵢ를 두 개의 잠재 표현 sᵢ(비개별화 속성)와 dᵢ(개별화 속성)로 분해한다. 이 과정에 Brownian Bridge Diffusion Model(BBDM)을 도입해, sᵢ 와 dᵢ 사이의 전이 과정을 확률적 확산 과정으로 모델링한다. 구체적으로, 확산 단계에서는 z₀ = xᵢ 에서 z_T = sᵢ 로 이동하고, 역전파 단계에서는 dᵢ 를 조건으로 z_T 을 다시 z₀ 으로 복원한다. 학습 목표는 복원된 \tilde{x}_i 와 원본 xᵢ 간의 L2 손실을 최소화하는 것이며, 이를 통해 sᵢ 와 dᵢ 가 각각 공유 속성과 클래스‑특이 속성을 효과적으로 캡처한다는 점이 핵심이다.
두 번째는 입자화(Granule Learning) 모듈이다. 여기서는 개별화 속성 dᵢ 에 대해 K개의 질의 q_k 를 정의하고, 각 질의에 대한 시각적 표현 a_{k}^{d,i}와 텍스트적 표현 a_{k}^{p,c}를 얻는다. 사실적 개입(Factual Intervention)에서는 a_{k}^{d,i} 에 sᵢ (비개별화 속성)를 결합해 x_{k}^{i}=D(sᵢ, a_{k}^{d,i}) 라는 시각 입자를 만든다. 이 입자는 “특정 개별화 속성 k 가 포함된 완전한 시각 표현”으로 해석되며, 텍스트 프롬프트는 코사인 유사도와 온도 파라미터 τ 를 이용한 소프트맥스 확률 p(y_a=k|x_{k}^{i}) 와 p(y_v=c_i|x_i) 를 통해 각각 속성 및 클래스 예측을 학습한다. 손실 L_factual 은 두 교차 엔트로피의 가중합으로, 개별화 속성의 중요성을 강조한다.
반면, 반사실적 개입(Counterfactual Intervention)은 sᵢ 와 d_j (다른 이미지의 개별화 속성)를 교환해 \tilde{x}{k}^{i}=D(s_j, a{k}^{d,i}) 와 같은 반사실 입자를 만든다. 이는 동일한 비개별화 속성이 다른 클래스에 나타날 때 발생할 수 있는 스퓨리어스 상관관계를 억제하고, 프롬프트의 일반화 능력을 향상시킨다. 두 개입 전략을 동시에 최적화함으로써, CaPL은 미세한 속성 차이를 정밀하게 반영하는 텍스트 프롬프트를 학습한다.
실험에서는 15개 데이터셋(Flowers102, FGVC‑Aircraft 등)에서 기존 CLIP‑Prompt, CoOp, CoCoOp 등과 비교했을 때 평균 3~5%p 이상의 정확도 향상을 기록했으며, 특히 fine‑grained 영역에서 가장 큰 격차를 보였다. 또한, 속성 분리 없이 전체 특징을 그대로 사용하는 경우와, 비개별화 속성을 제거한 경우를 각각 ablation 실험을 통해 검증했을 때, 두 속성을 모두 활용할 때 가장 높은 성능을 달성함을 확인했다.
요약하면, CaPL은 (1) BBDM 기반의 확률적 속성 분리로 시각 특징을 의미론적으로 정교하게 나누고, (2) 인과적 사실·반사실 개입을 통한 시각 입자 생성으로 텍스트 프롬프트에 미세 속성 정보를 효과적으로 전달한다는 두 가지 혁신적인 아이디어를 결합한다. 이는 기존 전역·국부 프롬프트 학습이 놓치기 쉬운 “속성의 차등 기여”를 정량화하고, fine‑grained 인식 성능을 크게 끌어올리는 데 성공했다.
댓글 및 학술 토론
Loading comments...
의견 남기기