BiPrompt 양방향 프롬프트 최적화를 통한 시각 텍스트 편향 완화
시각‑언어 기반 모델인 CLIP은 제로샷 일반화 능력이 뛰어나지만, 시각과 텍스트 양쪽에 존재하는 스퓨리어스(비인과적) 상관관계에 취약하다. 기존 디바이싱 방법은 시각 혹은 텍스트 중 하나의 모달리티만을 대상으로 하여 부분적인 강인성만을 제공하고, 분포 변화에 대해 불안정한 적응을 보인다. 본 논문에서는 테스트 시점 적응 과정에서 두 모달리티 모두의 비인과
초록
시각‑언어 기반 모델인 CLIP은 제로샷 일반화 능력이 뛰어나지만, 시각과 텍스트 양쪽에 존재하는 스퓨리어스(비인과적) 상관관계에 취약하다. 기존 디바이싱 방법은 시각 혹은 텍스트 중 하나의 모달리티만을 대상으로 하여 부분적인 강인성만을 제공하고, 분포 변화에 대해 불안정한 적응을 보인다. 본 논문에서는 테스트 시점 적응 과정에서 두 모달리티 모두의 비인과적 특징 의존성을 동시에 감소시키는 양방향 프롬프트 최적화 프레임워크인 BiPrompt을 제안한다. 시각 측면에서는 구조화된 어텐션‑가이드 삭제 기법을 도입해 배경 활성화를 억제하고, 인과적 영역과 스퓨리어스 영역 사이의 예측 일관성을 직교하도록 강제한다. 텍스트 측면에서는 클래스 임베딩을 등방성 의미 공간으로 정렬시키는 학습 가능한 재중심화 메커니즘인 균형 프롬프트 정규화를 도입한다. 두 모듈은 스퓨리어스 단서와 예측 사이의 조건부 상호정보량을 최소화함으로써, 재학습이나 도메인 라벨 없이도 모델을 인과적이고 도메인 불변적인 추론으로 유도한다. 실제 및 합성 편향 벤치마크에서 광범위한 실험을 수행한 결과, 기존 테스트‑타임 디바이싱 기법 대비 평균 정확도와 최악 그룹 정확도 모두에서 일관된 향상을 달성했으며, 경량이면서도 신뢰할 수 있는 비전‑언어 적응 경로를 제시한다.
상세 요약
BiPrompt 논문은 현재 비전‑언어 모델이 직면하고 있는 두 가지 핵심 문제, 즉 시각적 배경 잡음과 텍스트 프롬프트의 의미 왜곡을 동시에 해결하려는 시도로 눈에 띈다. 기존 연구들은 주로 한쪽 모달리티에 집중해, 예를 들어 이미지 영역에서 배경을 마스킹하거나 텍스트 프롬프트를 재구성하는 방식으로 편향을 완화했다. 그러나 이러한 단일‑모달 접근법은 실제 환경에서 시각·텍스트 간의 복합적인 스퓨리어스 상관관계가 존재할 때 충분히 강건하지 못한다는 한계가 있다. BiPrompt은 이를 인식하고, 테스트‑타임에 두 모달리티를 ‘양방향’으로 최적화한다는 점에서 차별화된다.
시각 측면에서 제안된 구조화된 어텐션‑가이드 삭제는, 기존의 단순 마스킹이 아닌 어텐션 맵을 기반으로 인과적 영역과 비인과적 영역을 구분한다. 이후 두 영역에 대해 예측을 각각 수행하고, 이 예측이 직교하도록 제약을 가함으로써 모델이 배경에 과도하게 의존하는 것을 방지한다. 이는 조건부 상호정보량을 최소화한다는 정보이론적 해석과도 일맥상통한다.
텍스트 측면에서는 ‘균형 프롬프트 정규화’라는 새로운 메커니즘을 도입한다. 기존 프롬프트 엔지니어링은 고정된 템플릿을 사용하거나 사전 학습된 임베딩을 그대로 활용하는 경우가 많아, 클래스 간 의미적 격차가 비대칭적으로 작용한다. BiPrompt은 학습 가능한 재중심화 파라미터를 통해 모든 클래스 임베딩을 등방성(동일한 분산) 공간으로 정렬한다. 결과적으로 텍스트 쪽에서도 스퓨리어스 단서가 예측에 미치는 영향을 균등하게 억제한다.
두 모듈을 결합한 전체 목표는 ‘조건부 상호정보량 최소화’이다. 즉, 모델이 입력(시각·텍스트)과 출력 사이에 비인과적 연결고리를 형성하지 못하도록 하는 것이다. 이 과정은 추가적인 재학습이나 도메인 라벨이 필요 없으며, 테스트 시점에 경량 파라미터만 업데이트한다는 점에서 실용성이 높다.
실험 결과는 설득력 있다. 실제 세계의 편향 데이터셋(예: Waterbirds, CelebA)과 합성 베이스라인(예: Colored MNIST) 모두에서 평균 정확도와 최악 그룹 정확도가 기존 테스트‑타임 디바이싱 방법보다 크게 향상되었다. 특히 ‘worst-group accuracy’가 크게 개선된 점은, 모델이 특정 편향 그룹에 과도하게 의존하지 않게 되었음을 의미한다.
전체적으로 BiPrompt은 시각·텍스트 양쪽에서 발생하는 편향을 동시에 다루는 통합 프레임워크를 제시함으로써, 향후 비전‑언어 모델의 신뢰성 및 인과적 추론 능력을 강화하는 데 중요한 발판이 될 것으로 기대된다.
📜 논문 원문 (영문)
🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...