클립 기반 다중 라벨 증분 학습을 위한 디클립 클래스별 프롬프트와 적응형 온도 조절
초록
디클립(DeCLIP)은 CLIP을 활용한 다중 라벨 클래스‑증분 학습(MLCIL)에서 발생하는 의미 혼동과 높은 거짓 양성률을 해결한다. 각 클래스마다 전용 프롬프트를 학습해 이미지와 텍스트를 클래스별로 분리하고, 학습된 프롬프트를 지식 앵커로 고정해 재현 없이 망각을 방지한다. 또한 작업‑인식 적응형 유사도 온도 조절(AST)을 도입해 추론 시 긍정·부정 유사도 쌍을 동적으로 스케일링함으로써 거짓 양성을 크게 감소시킨다. 실험 결과 MS‑COCO와 PASCAL VOC에서 최소한의 파라미터만으로 기존 방법들을 지속적으로 능가한다.
상세 분석
DeCLIP은 기존 CLIP 기반 클래스‑증분 학습이 단일 라벨 정렬에 최적화된 점을 다중 라벨 상황에 그대로 적용하려 할 때 발생하는 두 가지 핵심 문제—공동 발생 클래스 간 의미 혼동과 작업‑레벨 부분 라벨링에 의한 과도한 거짓 양성(FPR)—을 근본적으로 재설계한다. 첫 번째 문제는 “프롬프트‑클래스 매핑”을 재구성함으로써 해결한다. 기존 L2P·DualPrompt와 같은 many‑to‑many 매핑은 하나의 프롬프트가 여러 클래스를 담당하게 하여, 서로 다른 라벨이 동일한 시각·언어 특징을 공유하게 만든다. 이는 다중 라벨 이미지에서 클래스 경계가 흐려지고, 특히 “person‑dog”처럼 시각적으로 겹치는 객체가 동시에 존재할 때 혼동을 야기한다. DeCLIP은 각 클래스 c에 대해 (+)와 (‑) 두 개의 텍스트 프롬프트와 두 개의 비주얼 프롬프트를 각각 학습한다. 이렇게 1‑to‑1 매핑을 강제하면, 이미지가 여러 라벨을 포함하더라도 각 라벨에 대해 독립적인 시각‑언어 뷰가 생성된다. 비주얼 프롬프트는 CLIP의 고정된 이미지 인코더에 삽입돼 클래스‑특화 토큰을 유도하고, 텍스트 프롬프트는 클래스 이름과 결합돼 해당 라벨의 의미적 표현을 강화한다. 결과적으로 다중 라벨 이미지가 클래스별 이진 분류 문제들의 집합으로 전환돼, 기존 CLIP의 single‑image‑text 정렬 가정과 완벽히 일치한다.
두 번째 문제인 거짓 양성 억제는 “적응형 유사도 온도 조절(AST)”로 접근한다. 다중 라벨 증분 학습에서는 현재 작업의 라벨만이 양성으로 표시되고, 과거·미래 라벨은 모두 암묵적으로 음성이다. 이 불균형은 모델이 음성 라벨에 대한 학습 기회를 거의 갖지 못하게 만들어, 추론 시 존재하지 않는 클래스에 대해 과도한 확신을 부여한다. DeCLIP은 긍정·부정 유사도 쌍 (s⁺, s⁻)을 각각 온도 τ(t) 로 스케일링하는 두‑방향 소프트맥스를 사용한다. τ(t)는 작업 번호와 현재까지 학습된 클래스 수 |C₁: t|에 따라 자동 증가하도록 설계돼, 초기에는 τ=1(즉, 온도 조절 없음)에서 시작해 작업이 진행될수록 온도를 높여 예측 확신을 부드럽게 만든다. 이 스케일링은 별도의 데이터셋‑특정 하이퍼파라미터 튜닝 없이도 거짓 양성 비율을 25 % 수준에서 2 % 이하로 감소시킨다. 또한, 기존의 최대 엔트로피 손실이나 비대칭 손실과 달리 프롬프트 자체를 억제하지 않으므로, 학습된 클래스‑특화 프롬프트가 “지식 앵커”로서 안정적으로 보존된다.
DeCLIP의 파라미터 효율성도 주목할 만하다. 각 클래스당 학습되는 프롬프트는 수십 개의 가벼운 토큰에 불과해 전체 모델 파라미터에 비해 미미한 비중을 차지한다. 따라서 새로운 작업이 추가될 때마다 기존 프롬프트를 고정하고 새로운 클래스만을 위한 프롬프트를 학습하면, 재현(replay) 없이도 망각을 최소화할 수 있다. 이는 메모리 제한이 심한 실시간 시스템이나 모바일 디바이스에 특히 유리하다. 실험에서는 MS‑COCO와 PASCAL VOC 두 데이터셋에서 평균 mAP, CF1 등 주요 지표가 기존 최첨단 방법들을 2‑5 %p 이상 앞섰으며, 특히 FPR 감소 효과가 두드러졌다. 전체적으로 DeCLIP은 CLIP의 강력한 사전학습 지식을 다중 라벨 증분 학습에 맞게 “디코플링”하고, 온도 기반 후처리로 신뢰성을 보강한, 이론·실험 모두에서 설득력 있는 솔루션이다.
댓글 및 학술 토론
Loading comments...
의견 남기기