드롭아웃 프롬프트 학습을 통한 비전‑언어 모델 강인성 향상

읽는 시간: 3 분
...

📝 Abstract

Dropout is a widely used regularization technique which improves the generalization ability of a model by randomly dropping neurons. In light of this, we propose Dropout Prompt Learning, which aims for applying dropout to improve the robustness of the vision-language models. Different from the vanilla dropout, we apply dropout on the tokens of the textual and visual branches, where we evaluate the token significance considering both intra-modal context and inter-modal alignment, enabling flexible dropout probabilities for each token. Moreover, to maintain semantic alignment for general knowledge transfer while encouraging the diverse representations that dropout introduces, we further propose residual entropy regularization. Experiments on 15 benchmarks show our method’s effectiveness in challenging scenarios like lowshot learning, long-tail classification, and out-of-distribution generalization. Notably, our method surpasses regularizationbased methods including KgCoOp by 5.10% and PromptSRC by 2.13% in performance on base-to-novel generalization. Our code is available at https://github.com/JustCoolPig/DroPLe .

💡 Analysis

본 논문은 기존 드롭아웃 기법을 비전‑언어 모델(VLM)의 프롬프트 학습에 적용함으로써 모델의 일반화와 강인성을 동시에 향상시키는 새로운 접근법을 제시한다. 전통적인 드롭아웃은 신경망의 은닉 유닛을 무작위로 비활성화하여 과적합을 방지하고, 학습 과정에서 다양한 서브네트워크를 경험하게 함으로써 모델이 보다 넓은 함수 공간을 탐색하도록 돕는다. 그러나 이러한 방식은 주로 이미지나 텍스트 단일 모달에 국한되어 적용되며, 멀티모달 구조에서 토큰 수준의 중요도 차이를 반영하기에는 한계가 있다.

DroPLe(Dropout Prompt Learning)은 이러한 한계를 극복하기 위해 두 가지 핵심 아이디어를 도입한다. 첫째, 텍스트와 이미지 양쪽 브랜치의 토큰에 개별적인 드롭아웃 확률을 부여한다. 이를 위해 각 토큰의 “중요도”를 intra‑modal(동일 모달 내 컨텍스트)와 inter‑modal(다른 모달과의 정렬) 두 축에서 정량화한다. 예를 들어, 이미지 토큰 중 시각적 특징을 강하게 나타내는 토큰은 다른 토큰과의 유사도와 텍스트 토큰과의 정렬 점수가 높아 낮은 드롭아웃 확률을 갖게 되고, 반대로 주변 배경이나 잡음에 해당하는 토큰은 높은 확률로 차단된다. 텍스트 측면에서도 핵심 키워드와 보조 설명 토큰을 구분하여 유연한 마스크를 적용한다. 이러한 토큰‑레벨 가변 드롭아웃은 모델이 핵심 정보를 보존하면서도 불확실하거나 잡음이 섞인 부분에 대해 강인한 표현을 학습하도록 유도한다.

둘째, 잔차 엔트로피 정규화(residual entropy regularization)를 도입한다. 드롭아웃에 의해 생성된 다양한 서브네트워크는 표현의 다양성을 증가시키지만, 동시에 모달 간 의미 정렬이 흐트러질 위험이 있다. 이를 보완하기 위해, 원본 프롬프트와 드롭아웃이 적용된 프롬프트 사이의 엔트로피 차이를 최소화하는 정규화 항을 추가한다. 구체적으로, 두 표현 사이의 Kullback‑Leibler divergence를 최소화함으로써 “핵심 의미”는 유지하고, “다양성”은 잔차 형태로 남겨두는 균형을 맞춘다.

실험에서는 15개의 공개 벤치마크(저샷 이미지 분류, 롱테일 분류, OOD 테스트 등)를 사용해 기존 정규화 기반 방법(KgCoOp, PromptSRC 등)과 비교하였다. 특히 base‑to‑novel 일반화 시 KgCoOp 대비 5.10%p, PromptSRC 대비 2.13%p의 절대적 성능 향상을 기록했으며, 이는 드롭아웃 확률을 토큰 중요도에 맞게 조정하고 잔차 엔트로피를 정규화함으로써 얻은 시너지 효과로 해석된다. 또한, ablation study를 통해 토큰‑레벨 가변 드롭아웃만 적용했을 때와 잔차 엔트로피 정규화만 적용했을 때의 성능 차이를 정량적으로 보여주어, 두 요소가 상호 보완적으로 작용함을 입증하였다.

이러한 결과는 멀티모달 프롬프트 학습에서 “무작위성”을 단순히 적용하는 것이 아니라, 모달 간 의미 정렬과 토큰 중요도를 고려한 정교한 드롭아웃 설계가 모델의 일반화와 강인성을 크게 향상시킬 수 있음을 시사한다. 앞으로는 더 복잡한 모달 구조(예: 비디오‑텍스트)나 대규모 사전학습 모델에 적용해 보는 것이 자연스러운 확장 방향이며, 토큰 중요도 추정 방법을 학습 가능한 파라미터로 전환하는 연구도 기대된다.

📄 Content

드롭아웃은 무작위로 뉴런을 차단함으로써 모델의 일반화 능력을 향상시키는 널리 사용되는 정규화 기법이다. 이러한 관점에서 우리는 비전‑언어 모델의 강인성을 향상시키기 위해 드롭아웃을 적용하는 Dropout Prompt Learning을 제안한다. 기존의 일반적인 드롭아웃과 달리, 우리는 텍스트와 시각 양쪽 브랜치의 토큰에 드롭아웃을 적용한다. 이때 토큰의 중요성을 내부 모달 컨텍스트와 모달 간 정렬을 동시에 고려하여 평가함으로써 각 토큰에 유연한 드롭아웃 확률을 부여한다. 또한, 일반 지식 전이를 위한 의미 정렬을 유지하면서 드롭아웃이 도입하는 다양한 표현을 장려하기 위해 잔차 엔트로피 정규화를 추가로 제안한다. 15개의 벤치마크에서 실험한 결과, 저샷 학습, 롱테일 분류, OOD 일반화와 같은 도전적인 시나리오에서도 우리 방법의 효과가 입증되었다. 특히, 기본‑새로운 클래스 일반화에서 KgCoOp보다 5.10%, PromptSRC보다 2.13% 높은 성능을 기록하였다. 우리의 코드는 https://github.com/JustCoolPig/DroPLe 에서 공개한다.

이 글은 AI가 자동 번역 및 요약한 내용입니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키