CLIP 연속 학습을 위한 텍스트 앵커 기반 증분 프롬프트 튜닝

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 사전학습된 멀티모달 모델 CLIP의 텍스트 임베딩을 고정된 프로토타입 앵커로 활용하고, 시각 프롬프트를 단계적으로 추가·학습하는 TPPT 방식을 제안한다. 텍스트‑시각 대조 손실과 관계 다양성 정규화를 결합해 표현 드리프트와 임베딩 붕괴를 방지하고, 시각·텍스트 프롬프트를 공동 최적화하는 TPPT‑VT 변형까지 제시한다. 실험 결과, 기존 복잡한 프롬프트 기반 연속 학습 기법보다 적은 파라미터와 단순한 설계로 기억 손실을 크게 감소시키며 여러 CIL 벤치마크에서 우수한 성능을 입증한다.

상세 분석

TPPT는 CLIP의 텍스트 인코더가 생성하는 클래스별 텍스트 임베딩을 “고정된 텍스트 프로토타입”으로 정의하고, 이를 시각 프롬프트 학습의 정규화 기준으로 삼는다. 기존 CIL 방법들은 크로스 엔트로피(CE) 손실만 사용해 새로운 클래스에 대한 분류를 최적화하지만, 부분 클래스만 보이는 상황에서 임베딩 공간이 급격히 변형돼 이전 지식이 소실되는 표현 드리프트 문제가 발생한다. TPPT는 비대칭 CE 형태의 대조 손실(L_TPCL)을 도입해 시각 피처가 올바른 텍스트 프로토타입에 가깝게, 다른 프로토타입에는 멀어지도록 강제한다. 이때 텍스트 프로토타입은 학습 중 고정되므로, 시각 프롬프트는 “안정된 앵커”에 의해 지속적으로 정렬된다.

시각‑텍스트 간 격차를 줄이기 위해 제안된 TPPT‑VT는 텍스트 프롬프트도 동시에 학습한다. 그러나 무분별한 멀티모달 프롬프트 튜닝은 임베딩이 동일한 방향으로 수렴하는 “공간 붕괴” 위험을 내포한다. 이를 방지하기 위해 관계 다양성 정규화(L_DIV)를 적용, 텍스트 프로토타입 간 거리 분포를 사전 학습된 CLIP의 분포와 유사하게 유지한다. 결과적으로 텍스트 프롬프트가 클래스 간 의미적 차이를 보존하면서 시각 프롬프트와 상호 보완적으로 작동한다.

구현 측면에서 TPPT는 기존 프롬프트 기반 CIL 방법들(예: L2P, DualPrompt, CODA‑P)과 달리 복잡한 라우팅 메커니즘이나 외부 정규화(직교성 등)를 도입하지 않는다. 시각 프롬프트는 CLIP 비전 인코더의 여러 MSA 레이어에 삽입되는 소량의 learnable token으로, 각 새로운 작업마다 증분적으로 추가된다. 텍스트 프롬프트는 동일한 방식으로 텍스트 인코더에 삽입되며, L_DIV는 텍스트 프롬프트 파라미터에만 적용된다. 이러한 설계는 파라미터 효율성을 크게 높이며, 기존 방법 대비 학습·추론 비용이 미미하게 증가한다.

실험에서는 CUB‑200‑2011, Aircraft, ImageNet‑R 등 다양한 도메인과 규모의 CIL 시나리오에서 TPPT‑V와 TPPT‑VT를 평가하였다. 대표적인 지표인 평균 정확도와 평균 정확도 감소(Forgetting)에서 기존 최첨단 프롬프트 기반 CIL 기법들을 모두 앞섰으며, 특히 텍스트 프로토타입 고정에 의한 표현 드리프트 억제 효과가 눈에 띈다. 또한, L_DIV를 적용한 TPPT‑VT는 텍스트‑시각 정렬을 강화하면서도 임베딩 다양성을 유지해, 특히 CUB와 같이 미세한 클래스 차이가 중요한 데이터셋에서 성능 향상이 두드러졌다.

전체적으로 TPPT는 “텍스트 앵커 → 시각 프롬프트 정렬 → 멀티모달 공동 최적화”라는 직관적인 흐름을 통해 복잡성을 최소화하면서도 연속 학습에서의 핵심 문제인 기억 손실과 표현 붕괴를 효과적으로 해결한다는 점에서 의미가 크다.

CLIP 연속 학습을 위한 텍스트 앵커 기반 증분 프롬프트 튜닝

초록

상세 분석

댓글 및 학술 토론

의견 남기기